本文主要介绍和Polar码相关的信息论一些基本概念,包括自信息、互信息、信息熵和信道容量;便于后续对Polar码的介绍与研究。
自信息
事件集合X中的事件x=aix=a_{i}x=ai的自信息定义为Ix(ai)=−logPx(ai)I_{x}(a_{i})=-logP_{x}(a_{i})Ix(ai)=−logPx(ai) 可以简单标记为I(x)=−logp(x)I(x)=-log\, p(x)I(x)=−logp(x) 对于上述定义,有ai∈Xa_{i} \in Xai∈X,且有∑i=1nPX(ai)=1,0≤PX(ai)≤1\sum_{i=1}^{n}P_{X}(a_{i})=1,0\leq P_{X}(a_{i})\leq 1∑i=1nPX(ai)=1,0≤PX(ai)≤1;对于自信息的单位,若上述对数是以2为底,则单位为比特(bit);若是以10为底,则单位为迪特(Dit)或者哈特(Hart)。
对于一个事件,当它发生的概率越低时,它所包含的信息量就越大,这个与我们的直观感觉是相吻合的,比如一个班级内上个学期考倒数第一的同学,这个学期突然考了第一名,这件事情发生的概率是比较低的,因此当它发生后会给我们带来很大的惊讶,即这件事情包含的信息量是比较大的,很可能是一个“爆炸性新闻”。
联合自信息
联合事件集合XY中的事件x=aix=a_{i}x=ai,y=bjy=b_{j}y=bj包含的联合自信息定义为
IXY(ai,bj)=−logPXY(ai,bj)I_{XY}(a_{i}, b_{j})=-log\, P_{XY}(a_{i}, b_{j})IXY(ai,bj)=−logPXY(ai,bj) 可以简记为I(xy)=−logp(xy)I(xy)=-log\, p(xy)I(xy)=−logp(xy) 其中p(xy)p(xy)p(xy)满足非负性和归一化条件。
条件自信息
给定联合事件集XY,事件x=aix=a_{i}x=ai在事件y=bjy=b_{j}y=bj给定条件下的条件自信息定义为IX/Y(ai∣bj)=−logPX/Y(ai∣bj)I_{X/Y}(a_{i}|b_{j})=-log\, P_{X/Y}(a_{i}|b_{j})IX/Y(ai∣bj)=−logPX/Y(ai∣bj) 可以简记为I(x∣y)=−logp(x∣y)I(x|y)=-log\, p(x|y)I(x∣y)=−logp(x∣y) 其中p(x∣y)p(x|y)p(x∣y)表示在事件y发生前提下事件x发生的条件概率;并且自信息、联合自信息和条件自信息之间的关系如下I(xy)=I(x)+I(y∣x)=I(y)+I(x∣y)I(xy)=I(x)+I(y|x)=I(y)+I(x|y)I(xy)=I(x)+I(y∣x)=I(y)+I(x∣y) 上述这个式子可以从条件概率的公式出发简单证明一下,条件概率的定义为p(x∣y)=p(xy)/p(y)p(x|y)=p(xy)/p(y)p(x∣y)=p(xy)/p(y) 则有p(xy)=p(x∣y)∗p(y)p(xy)=p(x|y)*p(y)p(xy)=p(x∣y)∗p(y) 对两边同时取对数有并同乘负号有−logp(xy)=−log(p(x∣y))−log(p(y))-log\,p(xy)=-log(p(x|y))-log(p(y))−logp(xy)=−log(p(x∣y))−log(p(y)) 即可得证上式。
互信息
设两个事件集合X和Y,其中事件x∈Xx\in Xx∈X,事件y∈Yy\in Yy∈Y。由于特定的限制,我们通过观察y来获取对x的信息。离散随机事件x=aix=a_{i}x=ai和y=bjy=b_{j}y=bj之间的互信息(x∈X,y∈Yx\in X,y\in Yx∈X,y∈Y)定义为IX;Y(ai;bj)=logPX∣Y(ai∣bj)PX(ai)I_{X;Y}(a_{i};b_{j})=log\frac{P_{X|Y}(a_{i}|b_{j})}{P_{X}(a_{i})}IX;Y(ai;bj)=logPX(ai)PX∣Y(ai∣bj) 可以简记为I(x;y)=logp(x∣y)p(x)=logp(y∣x)p(x)=logp(xy)p(x)p(y)I(x;y)=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(x)}=log\frac{p(xy)}{p(x)p(y)}I(x;y)=logp(x)p(x∣y)=logp(x)p(y∣x)=logp(x)p(y)p(xy) 通过计算可得I(x;y)=I(x)−I(x∣y)I(x;y)=I(x)-I(x|y)I(x;y)=I(x)−I(x∣y) 互信息反映了两个随机事件x和y之间的相关性,当x和y统计独立时,则互信息为0。在通信系统中,当收端接收到信号y后,获取的关于发端信号x的信息量;为了能够通过y准确的估计x,这种关联性肯定越大越好。Polar编码在某种程度上也是利用这一特性进行编码,改善x和y之间的相关性,从而提高信息传输的可靠性。
条件互信息
设联合事件集XYZ,在给定z∈Zz\in Zz∈Z条件下,x∈Xx\in Xx∈X和y∈Yy\in Yy∈Y之间的条件互信息定义为I(x;y∣z)=logp(x∣yz)p(x∣z)I(x;y|z)=log\frac{p(x|yz)}{p(x|z)}I(x;y∣z)=logp(x∣z)p(x∣yz)
信息熵
离散随机变量X(随机变量可以理解为事件集合中某一或者某些事件的发生)的熵定义为自信息的平均值H(X)=−∑xp(x)logp(x)H(X)=-\sum_{x}p(x)log\,p(x)H(X)=−x∑p(x)logp(x) 其中X的概率分布可写成矢量形式,称为概率矢量,记为p=(p1,p2,…,pn)\mathbf{p}=(p_{1},p_{2},…,p_{n})p=(p1,p2,...,pn),则X的熵可简记为H(x)=H(p)=H(p1,p2,…,pn)H(x)=H(\mathbf{p})=H(p_{1},p_{2},…,p_{n})H(x)=H(p)=H(p1,p2,...,pn) 前边介绍过,自信息表示某一随机事件发生的不确定性的度量,而信息熵则表示在概率平均意义上随机变量整体不确定性的度量,其具体含义还可表现在以下几个方面
1)在事件发生前,表示随机变量取值的平均不确定性
2)在事件发生后,其不确定性就被解除,熵就是解除随机变量不确定平均所需要的信息量。
联合熵
联合熵用于多维随机矢量的信息度量。设N维随机矢量XN=(X1,X2,…,XN)\mathbf{X}^{N}=(X_{1},X_{2},…,X_{N})XN=(X1,X2,...,XN),取值为x=(x1,x2,…,xn)\mathbf{x}=(x_{1}, x_{2},…,x_{n})x=(x1,x2,...,xn),联合熵的定义为联合自信息的概率平均值H(XN)=H(X1X2…XN)=−∑xp(x)∗logp(x)H(\mathbf{X}^{N})=H(X_{1}X_{2}…X_{N})=-\sum_{x}p(\mathbf{x})*log\,p(\mathbf{x})H(XN)=H(X1X2...XN)=−x∑p(x)∗logp(x) 其中p(x)p(\mathbf{x})p(x)为矢量x\mathbf{x}x的联合概率。对于二维随机矢量XY\mathbf{XY}XY,联合熵表示为H(XY)=−∑x∑yp(xy)log(p(xy))H(\mathbf{XY})=-\sum_{x}\sum_{y}p(xy)log\,(p(xy))H(XY)=−x∑y∑p(xy)log(p(xy))
条件熵
考虑多维矢量的情况,设N维随机矢量XN=(X1X2…XN)\mathbf{X}^{N}=(X_{1}X_{2}…X_{N})XN=(X1X2...XN)和M维随机矢量YM=(Y1Y2…YM)\mathbf{Y}^{M}=(Y_{1}Y_{2}…Y_{M})YM=(Y1Y2...YM),其中x=(x1,x2,…,xN)\mathbf{x}=(x_{1}, x_{2}, …, x_{N})x=(x1,x2,...,xN)和y=(y1,y2,…,yM)\mathbf{y}=(y_{1},y_{2},…,y_{M})y=(y1,y2,...,yM),联合集XNYM\mathbf{X}^{N}\mathbf{Y}^{M}XNYM上,条件熵定义为H(YM∣XN)=−∑xyp(xy)logp(y∣x)H(\mathbf{Y^{M}|X^{N}})=-\sum_{\mathbf{xy}}p(\mathbf{xy})log\,p(\mathbf{y|x})H(YM∣XN)=−xy∑p(xy)logp(y∣x) 回归到二维随机矢量XY\mathbf{XY}XY的情况,条件熵定义为条件自信息的概率平均值H(Y∣X)=−∑x∑yp(xy)logp(y∣x)H(Y|X)=-\sum_{x}\sum_{y}p(xy)log\,p(y|x)H(Y∣X)=−x∑y∑p(xy)logp(y∣x) 熵与条件熵的关系可表示为H(Y∣X)⩽H(X)H(\mathbf{Y|X})\leqslant H(\mathbf{X})H(Y∣X)⩽H(X) 这就是著名的熵不增原理,即条件熵永远不会大于随机变量自己的信息熵。
平均互信息
离散随机变量X,Y\mathbf{X,Y}X,Y之间的平均互信息定义为I(X;Y)=∑xp(x)∑yp(y∣x)logp(y∣x)p(y)=∑xyp(x)p(y∣x)logp(y∣x)∑xp(x)p(y∣x)I(\mathbf{X;Y})=\sum_{x}p(x)\sum_{y}p(y|x)log\,\frac{p(y|x)}{p(y)}=\sum_{xy}p(x)p(y|x)log \frac{p(y|x)}{\sum_{x}p(x)p(y|x)}I(X;Y)=x∑p(x)y∑p(y∣x)logp(y)p(y∣x)=xy∑p(x)p(y∣x)log∑xp(x)p(y∣x)p(y∣x) 平均互信息其实就是在互信息I(x;y)I(x;y)I(x;y)在概率空间XY\mathbf{XY}XY中求统计平均的结果,是从整体上表示一个随机变量Y\mathbf{Y}Y提供的关于另一个随机变量X\mathbf{X}X的信息量。
平均互信息和熵之间的关系有I(X;Y)=H(X)−H(X∣Y)I(\mathbf{X;Y})=H(X)-H(X|Y)I(X;Y)=H(X)−H(X∣Y)I(X;Y)=H(Y)−H(Y∣X)I(\mathbf{X;Y})=H(Y)-H(Y|X)I(X;Y)=H(Y)−H(Y∣X)I(X;Y)=H(X)+H(Y)−H(XY)I(X;Y)=H(X)+H(Y)-H(XY)I(X;Y)=H(X)+H(Y)−H(XY) 从通信的角度理解,建立一个简单的信道模型Y=HX\mathbf{Y=HX}Y=HX 其中X\mathbf{X}X为发送信号;Y\mathbf{Y}Y为接收信号;H\mathbf{H}H为无线信道。H(X)H(\mathbf{X})H(X)表示发送信号X\mathbf{X}X的整体不确定度;H(X∣Y)H(\mathbf{X|Y})H(X∣Y)表示接收信号Y\mathbf{Y}Y中关于X\mathbf{X}X不确定度,则平均互信息即为两者之差,表示关于X\mathbf{X}X的不确定度的变化,即通过Y\mathbf{Y}Y可获取到的关于X\mathbf{X}X的信息量,我们肯定希望从Y\mathbf{Y}Y中获取到的关于X\mathbf{X}X的信息量越多越好,这样更有助于我们完成对X\mathbf{X}X的估计。
信道容量
此处我们只讨论确定性信道的信道容量,确定性信道的容量被定义为C=maxf(x)I(x;y)C=\underset{f(x)}{max}I(\mathbf{x;y})C=f(x)maxI(x;y) 其中f(x)f(x)f(x)表示发射信号向量X\mathbf{X}X的PDF(概率密度函数);I(x;y)I(\mathbf{x;y})I(x;y)表示随机变量X\mathbf{X}X和Y\mathbf{Y}Y之间的互信息;此确定性信道的容量定义为平均互信息的最大值。上述关于信道容量的定义,我们可以从两个方面理解:第一,当信道确定时,它对应的信道容量也已经确定,且与发送信号X\mathbf{X}X的分布无关;第二,当信道的容量是否能达到理论值与发送信号X\mathbf{X}X的分布有关,即存在满许某种概率分布的发送信号X\mathbf{X}X,使得当前信道的实际容量能达到该信道的理论信道容量。
在进行polar编码时,我们就是通过子信道的信道容量来判断它的“好”“坏”。将信息传输在“好”的子信道上,我们可以从接收信号Y中获取到更多关于发送信号X的信息量,从而更好的抵抗无线信道对于传输X的不利影响,更大概率的正确还原X。
参考文献:
1、《信息论基础第二版》作者 田宝玉/杨洁/贺志强/许文俊
2、《MIMO-OFDM无线通信技术及MATLAB实现》作者 孙锴/黄威译