信息熵相对熵交叉熵 KL散度 KL Divergence

信息熵

p(x):表示频率，即为概率

假设目前有一个比赛 A的胜率为90%，B的胜率为10% 那么对于整场比赛来讲，

A的信息熵+B的信息熵 =

如果两者胜率都为50% 那么其值为：

从这个两个例子可以看出对于越确定的事件那么求出的值越小，越不确定的事件求出的值越大.

假如把公式的自然底数改为e,10等其他底数可以发现

曲线的基本形状不发生改变那么在机器学习中可以把底数省略就可以得到信息熵的公式：

信息熵 ——>不确定性的度量

对于相对熵来讲，在确定了预测概率分布的情况下，对于实际概率分布，怎么可以获得冗余的大小呢？

预测概率函数*实际概率-实际概率的信息熵 =

即为KL散度

对于该函数来说函数值总是大于0的那么这个函数可以用来衡量预测概率分布和真是概率分布的差异

对于两种概率分布来说，当两种概率分布越相似，其KL值越小，当两种概率分布差异越大，那么KL值越大

在机器学习中我们常常使用这种性质，通过最小化概率分布P和Q的相对熵，是两种概率分布逼近，神经网络通常需要

识别图片来分类，在神经网络中：

通过最小化相对熵来实现 Q拟合样本 P的分布来实现分类

所以在神经网络中交叉熵损失函数就是