本文主要介绍和Polar码相关的信息论一些基本概念，包括自信息、互信息、信息熵和信道容量；便于后续对Polar码的介绍与研究。

自信息

事件集合X中的事件 $x=a_{i}$ 的自信息定义为 $I_{x}(a_{i})=-logP_{x}(a_{i})$ 可以简单标记为 $I(x)=−logp(x)I(x)=-log\, p(x)$ 对于上述定义，有 $ai∈Xa_{i} \in X$ ，且有 $∑i=1nPX(ai)=1,0≤PX(ai)≤1\sum_{i=1}^{n}P_{X}(a_{i})=1,0\leq P_{X}(a_{i})\leq 1$ ；对于自信息的单位，若上述对数是以2为底，则单位为比特（bit）；若是以10为底，则单位为迪特（Dit）或者哈特（Hart）。
对于一个事件，当它发生的概率越低时，它所包含的信息量就越大，这个与我们的直观感觉是相吻合的，比如一个班级内上个学期考倒数第一的同学，这个学期突然考了第一名，这件事情发生的概率是比较低的，因此当它发生后会给我们带来很大的惊讶，即这件事情包含的信息量是比较大的，很可能是一个“爆炸性新闻”。

联合自信息

联合事件集合XY中的事件 $x=a_{i}$ ， $y=b_{j}$ 包含的联合自信息定义为
$I_{XY}(a_{i}, b_{j})=-log\, P_{XY}(a_{i}, b_{j})$ 可以简记为 $I(xy)=−logp(xy)I(xy)=-log\, p(xy)$ 其中 $p (x y)$ 满足非负性和归一化条件。

条件自信息

给定联合事件集XY，事件 $x=a_{i}$ 在事件 $y=b_{j}$ 给定条件下的条件自信息定义为 $I_{X/Y}(a_{i}|b_{j})=-log\, P_{X/Y}(a_{i}|b_{j})$ 可以简记为 $I(x∣y)=−logp(x∣y)I(x|y)=-log\, p(x|y)$ 其中 $p (x ∣ y)$ 表示在事件y发生前提下事件x发生的条件概率；并且自信息、联合自信息和条件自信息之间的关系如下 $I (x y) = I (x) + I (y ∣ x) = I (y) + I (x ∣ y)$ 上述这个式子可以从条件概率的公式出发简单证明一下，条件概率的定义为 $p (x ∣ y) = p (x y) / p (y)$ 则有 $p (x y) = p (x ∣ y) * p (y)$ 对两边同时取对数有并同乘负号有 $−logp(xy)=−log(p(x∣y))−log(p(y))-log\,p(xy)=-log(p(x|y))-log(p(y))$ 即可得证上式。

互信息

设两个事件集合X和Y，其中事件 $x∈Xx\in X$ ，事件 $y∈Yy\in Y$ 。由于特定的限制，我们通过观察y来获取对x的信息。离散随机事件 $x=a_{i}$ 和 $y=b_{j}$ 之间的互信息（ $x∈X,y∈Yx\in X,y\in Y$ ）定义为 $IX;Y(ai;bj)=logPX∣Y(ai∣bj)PX(ai)I_{X;Y}(a_{i};b_{j})=log\frac{P_{X|Y}(a_{i}|b_{j})}{P_{X}(a_{i})}$ 可以简记为 $I(x;y)=logp(x∣y)p(x)=logp(y∣x)p(x)=logp(xy)p(x)p(y)I(x;y)=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(x)}=log\frac{p(xy)}{p(x)p(y)}$ 通过计算可得 $I (x; y) = I (x) - I (x ∣ y)$ 互信息反映了两个随机事件x和y之间的相关性，当x和y统计独立时，则互信息为0。在通信系统中，当收端接收到信号y后，获取的关于发端信号x的信息量；为了能够通过y准确的估计x，这种关联性肯定越大越好。Polar编码在某种程度上也是利用这一特性进行编码，改善x和y之间的相关性，从而提高信息传输的可靠性。

条件互信息

设联合事件集XYZ，在给定 $z∈Zz\in Z$ 条件下， $x∈Xx\in X$ 和 $y∈Yy\in Y$ 之间的条件互信息定义为 $I(x;y∣z)=logp(x∣yz)p(x∣z)I(x;y|z)=log\frac{p(x|yz)}{p(x|z)}$

信息熵

       离散随机变量X（随机变量可以理解为事件集合中某一或者某些事件的发生）的熵定义为自信息的平均值 $H(X)=−∑xp(x)logp(x)H(X)=-\sum_{x}p(x)log\,p(x)$        其中X的概率分布可写成矢量形式，称为概率矢量，记为 $p=(p1,p2,…,pn)\mathbf{p}=(p_{1},p_{2},…,p_{n})$ ，则X的熵可简记为 $H(x)=H(p)=H(p1,p2,…,pn)H(x)=H(\mathbf{p})=H(p_{1},p_{2},…,p_{n})$        前边介绍过，自信息表示某一随机事件发生的不确定性的度量，而信息熵则表示在概率平均意义上随机变量整体不确定性的度量，其具体含义还可表现在以下几个方面
       1）在事件发生前，表示随机变量取值的平均不确定性
       2）在事件发生后，其不确定性就被解除，熵就是解除随机变量不确定平均所需要的信息量。

联合熵

联合熵用于多维随机矢量的信息度量。设N维随机矢量 $XN=(X1,X2,…,XN)\mathbf{X}^{N}=(X_{1},X_{2},…,X_{N})$ ，取值为 $x=(x1,x2,…,xn)\mathbf{x}=(x_{1}, x_{2},…,x_{n})$ ，联合熵的定义为联合自信息的概率平均值 $H(XN)=H(X1X2…XN)=−∑xp(x)∗logp(x)H(\mathbf{X}^{N})=H(X_{1}X_{2}…X_{N})=-\sum_{x}p(\mathbf{x})*log\,p(\mathbf{x})$ 其中 $p(x)p(\mathbf{x})$ 为矢量 $x\mathbf{x}$ 的联合概率。对于二维随机矢量 $XY\mathbf{XY}$ ，联合熵表示为 $H(XY)=−∑x∑yp(xy)log(p(xy))H(\mathbf{XY})=-\sum_{x}\sum_{y}p(xy)log\,(p(xy))$

条件熵

考虑多维矢量的情况，设N维随机矢量 $XN=(X1X2…XN)\mathbf{X}^{N}=(X_{1}X_{2}…X_{N})$ 和M维随机矢量 $YM=(Y1Y2…YM)\mathbf{Y}^{M}=(Y_{1}Y_{2}…Y_{M})$ ，其中 $x=(x1,x2,…,xN)\mathbf{x}=(x_{1}, x_{2}, …, x_{N})$ 和 $y=(y1,y2,…,yM)\mathbf{y}=(y_{1},y_{2},…,y_{M})$ ，联合集 $XNYM\mathbf{X}^{N}\mathbf{Y}^{M}$ 上，条件熵定义为 $H(YM∣XN)=−∑xyp(xy)logp(y∣x)H(\mathbf{Y^{M}|X^{N}})=-\sum_{\mathbf{xy}}p(\mathbf{xy})log\,p(\mathbf{y|x})$ 回归到二维随机矢量 $XY\mathbf{XY}$ 的情况，条件熵定义为条件自信息的概率平均值 $H(Y∣X)=−∑x∑yp(xy)logp(y∣x)H(Y|X)=-\sum_{x}\sum_{y}p(xy)log\,p(y|x)$ 熵与条件熵的关系可表示为 $H(Y∣X)⩽H(X)H(\mathbf{Y|X})\leqslant H(\mathbf{X})$ 这就是著名的熵不增原理，即条件熵永远不会大于随机变量自己的信息熵。

平均互信息

离散随机变量 $X,Y\mathbf{X,Y}$ 之间的平均互信息定义为 $I(X;Y)=∑xp(x)∑yp(y∣x)logp(y∣x)p(y)=∑xyp(x)p(y∣x)logp(y∣x)∑xp(x)p(y∣x)I(\mathbf{X;Y})=\sum_{x}p(x)\sum_{y}p(y|x)log\,\frac{p(y|x)}{p(y)}=\sum_{xy}p(x)p(y|x)log \frac{p(y|x)}{\sum_{x}p(x)p(y|x)}$ 平均互信息其实就是在互信息 $I (x; y)$ 在概率空间 $XY\mathbf{XY}$ 中求统计平均的结果，是从整体上表示一个随机变量 $Y\mathbf{Y}$ 提供的关于另一个随机变量 $X\mathbf{X}$ 的信息量。
平均互信息和熵之间的关系有 $I(X;Y)=H(X)−H(X∣Y)I(\mathbf{X;Y})=H(X)-H(X|Y)$ $I(X;Y)=H(Y)−H(Y∣X)I(\mathbf{X;Y})=H(Y)-H(Y|X)$ $I (X; Y) = H (X) + H (Y) - H (X Y)$ 从通信的角度理解，建立一个简单的信道模型 $Y=HX\mathbf{Y=HX}$ 其中 $X\mathbf{X}$ 为发送信号； $Y\mathbf{Y}$ 为接收信号； $H\mathbf{H}$ 为无线信道。 $H(X)H(\mathbf{X})$ 表示发送信号 $X\mathbf{X}$ 的整体不确定度； $H(X∣Y)H(\mathbf{X|Y})$ 表示接收信号 $Y\mathbf{Y}$ 中关于 $X\mathbf{X}$ 不确定度，则平均互信息即为两者之差，表示关于 $X\mathbf{X}$ 的不确定度的变化，即通过 $Y\mathbf{Y}$ 可获取到的关于 $X\mathbf{X}$ 的信息量，我们肯定希望从 $Y\mathbf{Y}$ 中获取到的关于 $X\mathbf{X}$ 的信息量越多越好，这样更有助于我们完成对 $X\mathbf{X}$ 的估计。

信道容量

此处我们只讨论确定性信道的信道容量，确定性信道的容量被定义为 $C=maxf(x)I(x;y)C=\underset{f(x)}{max}I(\mathbf{x;y})$ 其中 $f (x)$ 表示发射信号向量 $X\mathbf{X}$ 的PDF（概率密度函数）； $I(x;y)I(\mathbf{x;y})$ 表示随机变量 $X\mathbf{X}$ 和 $Y\mathbf{Y}$ 之间的互信息；此确定性信道的容量定义为平均互信息的最大值。上述关于信道容量的定义，我们可以从两个方面理解：第一，当信道确定时，它对应的信道容量也已经确定，且与发送信号 $X\mathbf{X}$ 的分布无关；第二，当信道的容量是否能达到理论值与发送信号 $X\mathbf{X}$ 的分布有关，即存在满许某种概率分布的发送信号 $X\mathbf{X}$ ，使得当前信道的实际容量能达到该信道的理论信道容量。
在进行polar编码时，我们就是通过子信道的信道容量来判断它的“好”“坏”。将信息传输在“好”的子信道上，我们可以从接收信号Y中获取到更多关于发送信号X的信息量，从而更好的抵抗无线信道对于传输X的不利影响，更大概率的正确还原X。

参考文献：
1、《信息论基础第二版》作者田宝玉/杨洁/贺志强/许文俊
2、《MIMO-OFDM无线通信技术及MATLAB实现》作者孙锴/黄威译

信息论基本概念-自信息、互信息、信息熵、信道容量

自信息

联合自信息

条件自信息

互信息

条件互信息

信息熵

联合熵

条件熵

平均互信息

信道容量

Published by

风君子

发表回复取消回复

自信息

联合自信息

条件自信息

互信息

条件互信息

信息熵

联合熵

条件熵

平均互信息

信道容量

Published by

风君子

发表回复 取消回复

发表回复取消回复