【2.5.2】概率分布之间的距离--K-L散度(Kullback-Leibler Divergence，相对熵)

September 10, 2018 distance 阅读量：次

Kullback-Leibler Divergence，即K-L散度，是一种量化两种概率分布P和Q之间差异的方式，又叫相对熵。在概率学和统计学上，我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息。

信息熵反应了一个系统的有序化程度，一个系统越是有序，那么它的信息熵就越低，反之就越高。下面是熵的定义

如果一个随机变量X的可能取值为 $X=\{x_{1},x_{2},...x_{n}\}$ ，对应的概率为 $ p(X=x_{i}) (i=1,2,...n)$ ，则随机变量X的熵定义为

$ H(X) = - \sum \limits_{i=1}^{n} p(x_{i})logp(x_{i})$

信息熵越大表明样本集S的分布越分散（分布均衡），信息熵越小则表明样本集X的分布越集中（分布不均衡）。当S中n个分类出现的概率一样大时（都是1/n），信息熵取最大值log2(n)。当X只有一个分类时，信息熵取最小值0。

一、相对熵的认识

相对熵又称互熵，交叉熵，鉴别信息，Kullback熵，Kullback-Leible散度（即KL散度）等。设p(x)和q(x)是X取值的两个概率概率分布，则p对q的相对熵为

$$ D(p||q) = \sum \limits_{i=1}^{n} p(x)log \frac{p(x)}{q(x) }$$

在一定程度上，熵可以度量两个随机变量的距离。KL散度是两个概率分布P和Q差别的非对称性的度量。KL散度是

用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。

相对熵（KL散度）有两个主要的性质。如下

1）尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即

$$ D(p||q) ≠ D(q||p) $$

2）相对熵的值为非负值，即

$$ D(p||q) ≥0 $$

在证明之前，需要认识一个重要的不等式，叫做吉布斯不等式。内容如下

相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大。所以相对熵（KL散度）可以用于比较文本的相似度，先统计出词的频率，然后计算KL散度就行了。另外，在多指标系统评估中，指标权重分配是一个重点和难点，通过相对熵可以处理。

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn