相对熵
跳到导航
跳到搜索
![]() | 此条目需要精通或熟悉相关主题的编者参与及协助编辑。 |
KL散度(Kullback-Leibler divergence,简称KLD)[1],在讯息系统中称为相对熵(relative entropy),在连续时间序列中称为随机性(randomness),在统计模型推断中称为讯息增益(information gain)。也称讯息散度(information divergence)。
KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布、估计的模型分布、或P的近似分布。[2]
定义[编辑]
对于离散随机变量,其概率分布P 和 Q的KL散度可按下式定义为
等价于
即按概率P求得的P和Q的对数商的平均值。KL散度仅当概率P和Q各自总和均为1,且对于任何i皆满足及时,才有定义。式中出现的情况,其值按0处理。
对于连续随机变量,其概率分布P和Q可按积分方式定义为 [3]
其中p和q分别表示分布P和Q的密度。
更一般的,若P和Q为集合X的概率测度,且P关于Q绝对连续,则从P到Q的KL散度定义为
其中,假定右侧的表达形式存在,则为Q关于P的R–N导数。
相应的,若P关于Q绝对连续,则
即为P关于Q的相对熵。
特性[编辑]
相对熵的值为非负数:
由吉布斯不等式可知,当且仅当时为零。
尽管从直觉上KL散度是个度量或距离函数, 但是它实际上并不是一个真正的度量或距离。因为KL散度不具有对称性:从分布P到Q的距离通常并不等于从Q到P的距离。
KL散度和其它量的关系[编辑]
自信息和KL散度
互信息和KL散度
信息熵和KL散度
条件熵和KL散度
交叉熵和KL散度
参考文献[编辑]
- ^ Kullback, S.; Leibler, R.A. On Information and Sufficiency. Annals of Mathematical Statistics. 1951, 22 (1): 79–86. MR 39968. doi:10.1214/aoms/1177729694.
- ^ Kullback, S.; Leibler, R.A. On information and sufficiency. Annals of Mathematical Statistics. 1951, 22 (1): 79–86. MR 39968. doi:10.1214/aoms/1177729694.
- ^ C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.