信息熵是信息论、统计学、机器学习和人工智能中非常常见的一个术语。它用来描述:一个系统、一个变量或一个样本集合中,不确定性有多大。 换句话说,信息熵是在回答:面对一个结果还没有揭晓的事件,我们到底有多难提前猜中它。
如果说概率回答的是“某个结果出现的可能性有多大”,那么信息熵回答的就是“整体来看,这个概率分布到底有多乱、多不确定”。因此,信息熵常用于决策树划分、信息论分析、概率建模、机器学习特征选择和人工智能系统设计,在人工智能与数据分析中具有重要基础意义。
一、基本概念:什么是信息熵
信息熵(Information Entropy)通常简称为熵(Entropy)。它最初来自信息论,用来衡量一个随机变量结果的不确定程度。
若一个离散随机变量可能取 K 个结果,各结果出现的概率分别为:
那么它的信息熵可写为:
其中:
• pₖ 表示第 k 个结果出现的概率
• log₂ 表示以 2 为底的对数
• H 表示信息熵
这个公式的核心意思是:
• 如果某个结果几乎必然发生,那么系统不确定性很小,熵就低
• 如果多个结果都差不多可能发生,那么系统不确定性较大,熵就高
从通俗角度看,信息熵可以理解为:一个结果在揭晓之前,到底有多难猜。
例如:
• 如果一枚硬币永远只会出现正面,那么结果几乎没有悬念,熵很低
• 如果一枚公平硬币有一半概率正面、一半概率反面,那么结果更难提前确定,熵就更高
因此,信息熵本质上衡量的不是“结果本身有多大”,而是:结果出现之前,我们面对的整体不确定性有多强。
二、为什么叫“信息熵”
“熵”这个词最早来自物理学,用来表示系统的混乱程度。在信息论中,熵被借用来表示“信息的不确定性”或“信息的平均惊讶程度”。
之所以叫“信息熵”,是因为:一个事件越不确定,真正结果一旦揭晓时,带来的“信息量”往往越大。
例如:
如果你早就知道某件事一定会发生,那么它真的发生时,几乎没有新信息;
如果某件事本来很难预测,而它最终发生了,那么你会觉得“这件事的信息量更大”;
因此,信息熵可以理解为:在结果揭晓之前,系统平均能带来多少“未知感”或“不确定感”。
从通俗角度看:
• 熵高,说明结果更难猜,信息更“有悬念”
• 熵低,说明结果更容易猜,信息更“没悬念”
这就是“信息熵”这个名字背后的直觉来源。
三、如何直观理解信息熵
信息熵最重要的直觉,是“结果分布越平均,越难猜,熵越大;结果越集中,越容易猜,熵越小”。
1、当某个结果几乎必然发生时
例如,一个变量总是取同一个值:
• A 类概率为 1
• 其它类别概率为 0
这时,结果根本没有悬念。你在结果揭晓前几乎就已经知道答案,因此信息熵为 0。
2、当多个结果概率差不多时
例如,在二分类中:
• 正类概率为 0.5
• 负类概率为 0.5
这时,结果最难提前判断,因为两种可能性一样大。
这类情况下,信息熵较高。
3、当概率逐渐偏向某一类时
例如:
• 正类概率为 0.9
• 负类概率为 0.1
这时虽然还有不确定性,但已经不算特别难猜。
因为大多数时候会出现正类,所以熵会比 0.5 / 0.5 的情况更低。
从通俗角度看,信息熵可以理解为:
一个系统越均匀混合、越没有明显偏向,熵就越高;越一边倒、越容易判断,熵就越低。
四、信息熵的取值特点
1、当系统完全确定时,信息熵为 0
如果某个结果的概率是 1,其他结果概率都是 0,那么:
因为:
这表示系统完全没有不确定性。
2、当结果越均匀时,信息熵越大
例如,在二分类中:
若两个类别概率都是 0.5
则熵为:
这是二分类下的最大熵情况之一。
3、多分类中,类别越平均,熵也越高
例如在三分类中:若三个类别概率分别都是 1/3,那么熵会比“一个类别占绝大多数”的情况更高。
从通俗角度看:
• 熵 = 0,表示“几乎没悬念”
• 熵较高,表示“结果分布较乱,猜测难度更大”
五、信息熵的重要性与常见应用场景
1、信息熵的重要性
信息熵之所以重要,是因为它为“不确定性”提供了一个明确、可计算的度量方式。
首先,信息熵可以把“乱不乱”“难不难猜”这类直观感觉转化成具体数值。
如果没有它,我们只能模糊地说一个系统“看起来比较混乱”或“好像比较确定”;而有了信息熵之后,这种判断就变成了可计算、可比较的量。
其次,信息熵能帮助我们判断一个划分是否有效。
在机器学习中,很多任务都希望通过某种操作,让样本集合变得更纯、更确定。信息熵正好可以用来衡量“划分前后不确定性降低了多少”。
再次,信息熵是理解信息增益、决策树和概率建模的重要基础。
它不仅是一个单独术语,也是很多后续概念的起点。
可以概括地说:
• 概率描述“每种结果有多可能”
• 信息熵描述“整体结果有多不确定”
2、常见应用场景
(1)在决策树中,信息熵常用于衡量节点纯度
如果一个节点中的类别很混杂,熵就高;如果一个节点中的样本几乎都属于同一类,熵就低。
(2)在信息增益计算中,信息熵是核心组成部分
决策树在选择划分特征时,常比较不同划分前后熵减少了多少。
(3)在信息论中,信息熵用于衡量消息源的不确定性
结果越难预测,平均信息量通常越大。
(4)在概率建模中,信息熵可用于描述分布的混乱程度
不同概率分布的“散乱程度”可以通过熵来比较。
(5)在机器学习和深度学习中,交叉熵等概念也与信息熵密切相关
理解信息熵后,更容易理解交叉熵和相对熵等术语。
六、二分类中的信息熵
在二分类问题中,如果正类概率为 p,负类概率为 1 - p,那么信息熵可写为:
这个公式很有代表性,因为它能直观展示熵随概率分布变化的规律。
1、当 p = 0 或 p = 1 时
此时结果完全确定,熵为 0。
2、当 p = 0.5 时
此时两类概率完全相等,最难提前判断,熵达到较高值。
例如:
3、当 p 接近 0 或 1 时
熵会逐渐下降,因为系统越来越偏向某一边,结果越来越容易猜。
从通俗角度看,二分类熵的变化规律就是:五五开时最乱,越偏向某一边,越不乱。
七、信息熵与决策树的关系
信息熵在机器学习里最经典的应用之一,就是决策树。
在决策树中,我们希望每次划分都能让节点中的样本类别变得更清楚。
如果某个节点里样本类别很混杂,那么它的熵就高;
如果划分后子节点更纯,那么子节点熵就会降低。
这说明,决策树并不是随便选择划分特征,而是在寻找:哪种划分方式,能够让样本集合的不确定性下降得更多。
从通俗角度看,决策树在每一步都像是在问:
按这个特征分开以后,样本会不会更容易区分类别,系统会不会变得更“有序”。
而信息熵就是回答这个问题的重要工具。
八、信息熵与信息增益的关系
信息熵本身描述的是“当前有多不确定”,而信息增益(Information Gain)描述的是:做了一次划分之后,不确定性减少了多少。
如果原节点熵为:
划分后子节点加权平均熵为:
那么信息增益可写为:
这说明:信息熵是“原来的混乱程度”,信息增益是“混乱程度减少了多少”。
从通俗角度看:
• 熵是在量“乱不乱”
• 信息增益是在量“这一刀切下去,有没有让事情变得更清楚”
因此,信息熵是信息增益的基础。
九、信息熵与基尼不纯度的区别
信息熵最容易和基尼不纯度混淆,因为二者都能衡量节点纯度。
1、共同点
它们都用于刻画:节点中类别是否混杂,当前样本集合是不是够纯。
也都能用于决策树划分。
2、不同点
信息熵的公式为:
基尼不纯度的公式为:
它们数学形式不同,对概率变化的敏感方式也略有不同。
3、直观区别
可以简单理解为:
• 信息熵更强调“不确定性”
• 基尼不纯度更强调“类别混杂程度”
在很多实际任务中,它们的效果往往相近,但信息熵在信息论解释上更自然,而基尼不纯度计算通常更简单。
十、使用信息熵时需要注意的问题
1、信息熵不是“信息越多越好”的简单分数
它衡量的是不确定性,而不是“内容丰富程度”本身。
2、熵高不一定表示系统“坏”
熵高只是表示结果更难预测、不确定性更强。
在不同任务里,这未必是负面含义。
3、信息熵通常和概率分布一起理解
离开概率分布单独谈熵,往往会失去意义。
因为熵本质上是分布结构的函数。
4、在决策树中,熵低通常更理想
因为树模型通常希望节点更纯、更确定。
5、要区分信息熵、交叉熵和相对熵
它们名字相似,但含义不同:
• 信息熵:描述单个分布自身的不确定性
• 交叉熵:描述两个分布之间的匹配程度
• 相对熵:描述两个分布之间的差异程度
十一、Python 示例
下面给出两个简单示例,用来说明信息熵的基本计算方式。
示例 1:手动计算一个二分类分布的信息熵
import math # 二分类概率p1 = 0.5p2 = 0.5 # 计算信息熵entropy = - (p1 * math.log2(p1) + p2 * math.log2(p2)) print("类别概率:", p1, p2)print("信息熵:", entropy)这个例子展示了最基本的二分类信息熵计算。
当两个类别概率相等时,不确定性较高,因此熵较大。
示例 2:写一个通用函数计算多分类信息熵
import math def entropy(probs): return -sum(p * math.log2(p) for p in probs if p > 0) # 三分类概率probs = [0.2, 0.5, 0.3] # 计算信息熵h = entropy(probs) print("类别概率:", probs)print("信息熵:", h)这个例子展示了更一般的情形。
只要给出一个概率分布,就可以计算它对应的信息熵。
📘 小结
信息熵是一种用来衡量概率分布不确定性大小的指标。它的核心意义是:结果越难预测、类别越均匀混杂,信息熵通常越高;结果越确定、类别越集中,信息熵通常越低。在决策树、信息增益、概率建模和机器学习中,信息熵都非常重要。对初学者而言,可以把它理解为:一个系统在结果揭晓之前,越让人难猜,它的信息熵就越高。
“点赞有美意,赞赏是鼓励”