信息熵

p(x):表示频率,即为概率

假设目前 有一个比赛 A的胜率为90%,B的胜率为10% 那么对于整场比赛来讲,

A的信息熵+B的信息熵 =

如果两者胜率都为50% 那么 其值为:

从这个两个例子可以看出对于越确定的事件 那么求出的值越小,越不确定的事件 求出的值越大.

假如把公式的自然底数改为e,10等其他底数可以发现

曲线的基本形状不发生改变 那么在机器学习中可以把底数省略 就可以得到信息熵的公式:

信息熵 ——>不确定性的度量

相对熵

大白话AI | 作弊也有学问? | 信息熵 | 相对熵 | 交叉熵 | KL散度 | KL Divergence_哔哩哔哩_bilibili

对于相对熵来讲,在确定了预测概率分布的情况下,对于实际概率分布 ,怎么可以获得冗余的大小呢?

预测概率函数*实际概率-实际概率的信息熵 =

即为KL散度

对于该函数来说 函数值总是大于0的 那么这个函数可以用来衡量预测概率分布和真是概率分布的差异

对于两种概率分布来说,当两种概率分布越相似,其KL值越小,当两种概率分布差异越大,那么KL值越大

在机器学习中我们常常使用这种性质,通过最小化概率分布P和Q的相对熵,是两种概率分布逼近,神经网络通常需要

识别图片来分类,在神经网络中:

通过最小化相对熵 来实现 Q拟合样本 P的分布 来实现分类

所以在神经网络中 交叉熵损失函数就是