本文主要介绍和Polar码相关的信息论一些基本概念,包括自信息、互信息、信息熵和信道容量;便于后续对Polar码的介绍与研究。

自信息

       事件集合X中的事件x=aix=a_{i}x=ai的自信息定义为Ix(ai)=−logPx(ai)I_{x}(a_{i})=-logP_{x}(a_{i})Ix(ai)=logPx(ai)       可以简单标记为I(x)=−logp(x)I(x)=-log\, p(x)I(x)=logp(x)       对于上述定义,有ai∈Xa_{i} \in XaiX,且有∑i=1nPX(ai)=1,0≤PX(ai)≤1\sum_{i=1}^{n}P_{X}(a_{i})=1,0\leq P_{X}(a_{i})\leq 1i=1nPX(ai)=1,0PX(ai)1;对于自信息的单位,若上述对数是以2为底,则单位为比特(bit);若是以10为底,则单位为迪特(Dit)或者哈特(Hart)。
       对于一个事件,当它发生的概率越低时,它所包含的信息量就越大,这个与我们的直观感觉是相吻合的,比如一个班级内上个学期考倒数第一的同学,这个学期突然考了第一名,这件事情发生的概率是比较低的,因此当它发生后会给我们带来很大的惊讶,即这件事情包含的信息量是比较大的,很可能是一个“爆炸性新闻”。

联合自信息

       联合事件集合XY中的事件x=aix=a_{i}x=aiy=bjy=b_{j}y=bj包含的联合自信息定义为
IXY(ai,bj)=−logPXY(ai,bj)I_{XY}(a_{i}, b_{j})=-log\, P_{XY}(a_{i}, b_{j})IXY(ai,bj)=logPXY(ai,bj)       可以简记为I(xy)=−logp(xy)I(xy)=-log\, p(xy)I(xy)=logp(xy)       其中p(xy)p(xy)p(xy)满足非负性和归一化条件。

条件自信息

       给定联合事件集XY,事件x=aix=a_{i}x=ai在事件y=bjy=b_{j}y=bj给定条件下的条件自信息定义为IX/Y(ai∣bj)=−logPX/Y(ai∣bj)I_{X/Y}(a_{i}|b_{j})=-log\, P_{X/Y}(a_{i}|b_{j})IX/Y(aibj)=logPX/Y(aibj)       可以简记为I(x∣y)=−logp(x∣y)I(x|y)=-log\, p(x|y)I(xy)=logp(xy)       其中p(x∣y)p(x|y)p(xy)表示在事件y发生前提下事件x发生的条件概率;并且自信息、联合自信息和条件自信息之间的关系如下I(xy)=I(x)+I(y∣x)=I(y)+I(x∣y)I(xy)=I(x)+I(y|x)=I(y)+I(x|y)I(xy)=I(x)+I(yx)=I(y)+I(xy)       上述这个式子可以从条件概率的公式出发简单证明一下,条件概率的定义为p(x∣y)=p(xy)/p(y)p(x|y)=p(xy)/p(y)p(xy)=p(xy)/p(y)       则有p(xy)=p(x∣y)∗p(y)p(xy)=p(x|y)*p(y)p(xy)=p(xy)p(y)       对两边同时取对数有并同乘负号有−logp(xy)=−log(p(x∣y))−log(p(y))-log\,p(xy)=-log(p(x|y))-log(p(y))logp(xy)=log(p(xy))log(p(y))       即可得证上式。

互信息

       设两个事件集合X和Y,其中事件x∈Xx\in XxX,事件y∈Yy\in YyY。由于特定的限制,我们通过观察y来获取对x的信息。离散随机事件x=aix=a_{i}x=aiy=bjy=b_{j}y=bj之间的互信息(x∈X,y∈Yx\in X,y\in YxX,yY)定义为IX;Y(ai;bj)=logPX∣Y(ai∣bj)PX(ai)I_{X;Y}(a_{i};b_{j})=log\frac{P_{X|Y}(a_{i}|b_{j})}{P_{X}(a_{i})}IX;Y(ai;bj)=logPX(ai)PXY(aibj)       可以简记为I(x;y)=logp(x∣y)p(x)=logp(y∣x)p(x)=logp(xy)p(x)p(y)I(x;y)=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(x)}=log\frac{p(xy)}{p(x)p(y)}I(x;y)=logp(x)p(xy)=logp(x)p(yx)=logp(x)p(y)p(xy)       通过计算可得I(x;y)=I(x)−I(x∣y)I(x;y)=I(x)-I(x|y)I(x;y)=I(x)I(xy)       互信息反映了两个随机事件x和y之间的相关性,当x和y统计独立时,则互信息为0。在通信系统中,当收端接收到信号y后,获取的关于发端信号x的信息量;为了能够通过y准确的估计x,这种关联性肯定越大越好。Polar编码在某种程度上也是利用这一特性进行编码,改善x和y之间的相关性,从而提高信息传输的可靠性。

条件互信息

       设联合事件集XYZ,在给定z∈Zz\in ZzZ条件下,x∈Xx\in XxXy∈Yy\in YyY之间的条件互信息定义为I(x;y∣z)=logp(x∣yz)p(x∣z)I(x;y|z)=log\frac{p(x|yz)}{p(x|z)}I(x;yz)=logp(xz)p(xyz)

信息熵

       离散随机变量X(随机变量可以理解为事件集合中某一或者某些事件的发生)的熵定义为自信息的平均值H(X)=−∑xp(x)logp(x)H(X)=-\sum_{x}p(x)log\,p(x)H(X)=xp(x)logp(x)       其中X的概率分布可写成矢量形式,称为概率矢量,记为p=(p1,p2,…,pn)\mathbf{p}=(p_{1},p_{2},…,p_{n})p=(p1,p2,...,pn),则X的熵可简记为H(x)=H(p)=H(p1,p2,…,pn)H(x)=H(\mathbf{p})=H(p_{1},p_{2},…,p_{n})H(x)=H(p)=H(p1,p2,...,pn)       前边介绍过,自信息表示某一随机事件发生的不确定性的度量,而信息熵则表示在概率平均意义上随机变量整体不确定性的度量,其具体含义还可表现在以下几个方面
       1)在事件发生前,表示随机变量取值的平均不确定性
       2)在事件发生后,其不确定性就被解除,熵就是解除随机变量不确定平均所需要的信息量。

联合熵

       联合熵用于多维随机矢量的信息度量。设N维随机矢量XN=(X1,X2,…,XN)\mathbf{X}^{N}=(X_{1},X_{2},…,X_{N})XN=(X1,X2,...,XN),取值为x=(x1,x2,…,xn)\mathbf{x}=(x_{1}, x_{2},…,x_{n})x=(x1,x2,...,xn),联合熵的定义为联合自信息的概率平均值H(XN)=H(X1X2…XN)=−∑xp(x)∗logp(x)H(\mathbf{X}^{N})=H(X_{1}X_{2}…X_{N})=-\sum_{x}p(\mathbf{x})*log\,p(\mathbf{x})H(XN)=H(X1X2...XN)=xp(x)logp(x)       其中p(x)p(\mathbf{x})p(x)为矢量x\mathbf{x}x的联合概率。对于二维随机矢量XY\mathbf{XY}XY,联合熵表示为H(XY)=−∑x∑yp(xy)log(p(xy))H(\mathbf{XY})=-\sum_{x}\sum_{y}p(xy)log\,(p(xy))H(XY)=xyp(xy)log(p(xy))

条件熵

       考虑多维矢量的情况,设N维随机矢量XN=(X1X2…XN)\mathbf{X}^{N}=(X_{1}X_{2}…X_{N})XN=(X1X2...XN)和M维随机矢量YM=(Y1Y2…YM)\mathbf{Y}^{M}=(Y_{1}Y_{2}…Y_{M})YM=(Y1Y2...YM),其中x=(x1,x2,…,xN)\mathbf{x}=(x_{1}, x_{2}, …, x_{N})x=(x1,x2,...,xN)y=(y1,y2,…,yM)\mathbf{y}=(y_{1},y_{2},…,y_{M})y=(y1,y2,...,yM),联合集XNYM\mathbf{X}^{N}\mathbf{Y}^{M}XNYM上,条件熵定义为H(YM∣XN)=−∑xyp(xy)logp(y∣x)H(\mathbf{Y^{M}|X^{N}})=-\sum_{\mathbf{xy}}p(\mathbf{xy})log\,p(\mathbf{y|x})H(YMXN)=xyp(xy)logp(yx)       回归到二维随机矢量XY\mathbf{XY}XY的情况,条件熵定义为条件自信息的概率平均值H(Y∣X)=−∑x∑yp(xy)logp(y∣x)H(Y|X)=-\sum_{x}\sum_{y}p(xy)log\,p(y|x)H(YX)=xyp(xy)logp(yx)       熵与条件熵的关系可表示为H(Y∣X)⩽H(X)H(\mathbf{Y|X})\leqslant H(\mathbf{X})H(YX)H(X)       这就是著名的熵不增原理,即条件熵永远不会大于随机变量自己的信息熵。

平均互信息

       离散随机变量X,Y\mathbf{X,Y}X,Y之间的平均互信息定义为I(X;Y)=∑xp(x)∑yp(y∣x)logp(y∣x)p(y)=∑xyp(x)p(y∣x)logp(y∣x)∑xp(x)p(y∣x)I(\mathbf{X;Y})=\sum_{x}p(x)\sum_{y}p(y|x)log\,\frac{p(y|x)}{p(y)}=\sum_{xy}p(x)p(y|x)log \frac{p(y|x)}{\sum_{x}p(x)p(y|x)}I(X;Y)=xp(x)yp(yx)logp(y)p(yx)=xyp(x)p(yx)logxp(x)p(yx)p(yx)       平均互信息其实就是在互信息I(x;y)I(x;y)I(x;y)在概率空间XY\mathbf{XY}XY中求统计平均的结果,是从整体上表示一个随机变量Y\mathbf{Y}Y提供的关于另一个随机变量X\mathbf{X}X的信息量。
       平均互信息和熵之间的关系有I(X;Y)=H(X)−H(X∣Y)I(\mathbf{X;Y})=H(X)-H(X|Y)I(X;Y)=H(X)H(XY)I(X;Y)=H(Y)−H(Y∣X)I(\mathbf{X;Y})=H(Y)-H(Y|X)I(X;Y)=H(Y)H(YX)I(X;Y)=H(X)+H(Y)−H(XY)I(X;Y)=H(X)+H(Y)-H(XY)I(X;Y)=H(X)+H(Y)H(XY)       从通信的角度理解,建立一个简单的信道模型Y=HX\mathbf{Y=HX}Y=HX       其中X\mathbf{X}X为发送信号;Y\mathbf{Y}Y为接收信号;H\mathbf{H}H为无线信道。H(X)H(\mathbf{X})H(X)表示发送信号X\mathbf{X}X的整体不确定度;H(X∣Y)H(\mathbf{X|Y})H(XY)表示接收信号Y\mathbf{Y}Y中关于X\mathbf{X}X不确定度,则平均互信息即为两者之差,表示关于X\mathbf{X}X的不确定度的变化,即通过Y\mathbf{Y}Y可获取到的关于X\mathbf{X}X的信息量,我们肯定希望从Y\mathbf{Y}Y中获取到的关于X\mathbf{X}X的信息量越多越好,这样更有助于我们完成对X\mathbf{X}X的估计。

信道容量

       此处我们只讨论确定性信道的信道容量,确定性信道的容量被定义为C=maxf(x)I(x;y)C=\underset{f(x)}{max}I(\mathbf{x;y})C=f(x)maxI(x;y)       其中f(x)f(x)f(x)表示发射信号向量X\mathbf{X}X的PDF(概率密度函数);I(x;y)I(\mathbf{x;y})I(x;y)表示随机变量X\mathbf{X}XY\mathbf{Y}Y之间的互信息;此确定性信道的容量定义为平均互信息的最大值。上述关于信道容量的定义,我们可以从两个方面理解:第一,当信道确定时,它对应的信道容量也已经确定,且与发送信号X\mathbf{X}X的分布无关;第二,当信道的容量是否能达到理论值与发送信号X\mathbf{X}X的分布有关,即存在满许某种概率分布的发送信号X\mathbf{X}X,使得当前信道的实际容量能达到该信道的理论信道容量。
       在进行polar编码时,我们就是通过子信道的信道容量来判断它的“好”“坏”。将信息传输在“好”的子信道上,我们可以从接收信号Y中获取到更多关于发送信号X的信息量,从而更好的抵抗无线信道对于传输X的不利影响,更大概率的正确还原X。

参考文献:
1、《信息论基础第二版》作者 田宝玉/杨洁/贺志强/许文俊
2、《MIMO-OFDM无线通信技术及MATLAB实现》作者 孙锴/黄威译