AI 术语通俗词典：信息熵-洪萨配资

信息熵是信息论、统计学、机器学习和人工智能中非常常见的一个术语。它用来描述：一个系统、一个变量或一个样本集合中，不确定性有多大。换句话说，信息熵是在回答：面对一个结果还没有揭晓的事件，我们到底有多难提前猜中它。

如果说概率回答的是“某个结果出现的可能性有多大”，那么信息熵回答的就是“整体来看，这个概率分布到底有多乱、多不确定”。因此，信息熵常用于决策树划分、信息论分析、概率建模、机器学习特征选择和人工智能系统设计，在人工智能与数据分析中具有重要基础意义。

一、基本概念：什么是信息熵

信息熵（Information Entropy）通常简称为熵（Entropy）。它最初来自信息论，用来衡量一个随机变量结果的不确定程度。

若一个离散随机变量可能取 K 个结果，各结果出现的概率分别为：

那么它的信息熵可写为：

其中：

• pₖ 表示第 k 个结果出现的概率

• log₂ 表示以 2 为底的对数

• H 表示信息熵

这个公式的核心意思是：

• 如果某个结果几乎必然发生，那么系统不确定性很小，熵就低

• 如果多个结果都差不多可能发生，那么系统不确定性较大，熵就高

从通俗角度看，信息熵可以理解为：一个结果在揭晓之前，到底有多难猜。

例如：

• 如果一枚硬币永远只会出现正面，那么结果几乎没有悬念，熵很低

• 如果一枚公平硬币有一半概率正面、一半概率反面，那么结果更难提前确定，熵就更高

因此，信息熵本质上衡量的不是“结果本身有多大”，而是：结果出现之前，我们面对的整体不确定性有多强。

二、为什么叫“信息熵”

“熵”这个词最早来自物理学，用来表示系统的混乱程度。在信息论中，熵被借用来表示“信息的不确定性”或“信息的平均惊讶程度”。

之所以叫“信息熵”，是因为：一个事件越不确定，真正结果一旦揭晓时，带来的“信息量”往往越大。

例如：

如果你早就知道某件事一定会发生，那么它真的发生时，几乎没有新信息；

如果某件事本来很难预测，而它最终发生了，那么你会觉得“这件事的信息量更大”；

因此，信息熵可以理解为：在结果揭晓之前，系统平均能带来多少“未知感”或“不确定感”。

从通俗角度看：

• 熵高，说明结果更难猜，信息更“有悬念”

• 熵低，说明结果更容易猜，信息更“没悬念”

这就是“信息熵”这个名字背后的直觉来源。

三、如何直观理解信息熵

信息熵最重要的直觉，是“结果分布越平均，越难猜，熵越大；结果越集中，越容易猜，熵越小”。

1、当某个结果几乎必然发生时

例如，一个变量总是取同一个值：

• A 类概率为 1

• 其它类别概率为 0

这时，结果根本没有悬念。你在结果揭晓前几乎就已经知道答案，因此信息熵为 0。

2、当多个结果概率差不多时

例如，在二分类中：

• 正类概率为 0.5

• 负类概率为 0.5

这时，结果最难提前判断，因为两种可能性一样大。

这类情况下，信息熵较高。

3、当概率逐渐偏向某一类时

例如：

• 正类概率为 0.9

• 负类概率为 0.1

这时虽然还有不确定性，但已经不算特别难猜。

因为大多数时候会出现正类，所以熵会比 0.5 / 0.5 的情况更低。

从通俗角度看，信息熵可以理解为：

一个系统越均匀混合、越没有明显偏向，熵就越高；越一边倒、越容易判断，熵就越低。

四、信息熵的取值特点

1、当系统完全确定时，信息熵为 0

如果某个结果的概率是 1，其他结果概率都是 0，那么：

因为：

这表示系统完全没有不确定性。

2、当结果越均匀时，信息熵越大

例如，在二分类中：

若两个类别概率都是 0.5

则熵为：

这是二分类下的最大熵情况之一。

3、多分类中，类别越平均，熵也越高

例如在三分类中：若三个类别概率分别都是 1/3，那么熵会比“一个类别占绝大多数”的情况更高。

从通俗角度看：

• 熵 = 0，表示“几乎没悬念”

• 熵较高，表示“结果分布较乱，猜测难度更大”

五、信息熵的重要性与常见应用场景

1、信息熵的重要性

信息熵之所以重要，是因为它为“不确定性”提供了一个明确、可计算的度量方式。

首先，信息熵可以把“乱不乱”“难不难猜”这类直观感觉转化成具体数值。

如果没有它，我们只能模糊地说一个系统“看起来比较混乱”或“好像比较确定”；而有了信息熵之后，这种判断就变成了可计算、可比较的量。

其次，信息熵能帮助我们判断一个划分是否有效。

在机器学习中，很多任务都希望通过某种操作，让样本集合变得更纯、更确定。信息熵正好可以用来衡量“划分前后不确定性降低了多少”。

再次，信息熵是理解信息增益、决策树和概率建模的重要基础。

它不仅是一个单独术语，也是很多后续概念的起点。

可以概括地说：

• 概率描述“每种结果有多可能”

• 信息熵描述“整体结果有多不确定”

2、常见应用场景

（1）在决策树中，信息熵常用于衡量节点纯度

如果一个节点中的类别很混杂，熵就高；如果一个节点中的样本几乎都属于同一类，熵就低。

（2）在信息增益计算中，信息熵是核心组成部分

决策树在选择划分特征时，常比较不同划分前后熵减少了多少。

（3）在信息论中，信息熵用于衡量消息源的不确定性

结果越难预测，平均信息量通常越大。

（4）在概率建模中，信息熵可用于描述分布的混乱程度

不同概率分布的“散乱程度”可以通过熵来比较。

（5）在机器学习和深度学习中，交叉熵等概念也与信息熵密切相关

理解信息熵后，更容易理解交叉熵和相对熵等术语。

六、二分类中的信息熵

在二分类问题中，如果正类概率为 p，负类概率为 1 - p，那么信息熵可写为：

这个公式很有代表性，因为它能直观展示熵随概率分布变化的规律。

1、当 p = 0 或 p = 1 时

此时结果完全确定，熵为 0。

2、当 p = 0.5 时

此时两类概率完全相等，最难提前判断，熵达到较高值。

例如：

3、当 p 接近 0 或 1 时

熵会逐渐下降，因为系统越来越偏向某一边，结果越来越容易猜。

从通俗角度看，二分类熵的变化规律就是：五五开时最乱，越偏向某一边，越不乱。

七、信息熵与决策树的关系

信息熵在机器学习里最经典的应用之一，就是决策树。

在决策树中，我们希望每次划分都能让节点中的样本类别变得更清楚。

如果某个节点里样本类别很混杂，那么它的熵就高；

如果划分后子节点更纯，那么子节点熵就会降低。

这说明，决策树并不是随便选择划分特征，而是在寻找：哪种划分方式，能够让样本集合的不确定性下降得更多。

从通俗角度看，决策树在每一步都像是在问：

按这个特征分开以后，样本会不会更容易区分类别，系统会不会变得更“有序”。

而信息熵就是回答这个问题的重要工具。

八、信息熵与信息增益的关系

信息熵本身描述的是“当前有多不确定”，而信息增益（Information Gain）描述的是：做了一次划分之后，不确定性减少了多少。

如果原节点熵为：

划分后子节点加权平均熵为：

那么信息增益可写为：

这说明：信息熵是“原来的混乱程度”，信息增益是“混乱程度减少了多少”。

从通俗角度看：

• 熵是在量“乱不乱”

• 信息增益是在量“这一刀切下去，有没有让事情变得更清楚”

因此，信息熵是信息增益的基础。

九、信息熵与基尼不纯度的区别

信息熵最容易和基尼不纯度混淆，因为二者都能衡量节点纯度。

1、共同点

它们都用于刻画：节点中类别是否混杂，当前样本集合是不是够纯。

也都能用于决策树划分。

2、不同点

信息熵的公式为：

基尼不纯度的公式为：

它们数学形式不同，对概率变化的敏感方式也略有不同。

3、直观区别

可以简单理解为：

• 信息熵更强调“不确定性”

• 基尼不纯度更强调“类别混杂程度”

在很多实际任务中，它们的效果往往相近，但信息熵在信息论解释上更自然，而基尼不纯度计算通常更简单。

十、使用信息熵时需要注意的问题

1、信息熵不是“信息越多越好”的简单分数

它衡量的是不确定性，而不是“内容丰富程度”本身。

2、熵高不一定表示系统“坏”

熵高只是表示结果更难预测、不确定性更强。

在不同任务里，这未必是负面含义。

3、信息熵通常和概率分布一起理解

离开概率分布单独谈熵，往往会失去意义。

因为熵本质上是分布结构的函数。

4、在决策树中，熵低通常更理想

因为树模型通常希望节点更纯、更确定。

5、要区分信息熵、交叉熵和相对熵

它们名字相似，但含义不同：

• 信息熵：描述单个分布自身的不确定性

• 交叉熵：描述两个分布之间的匹配程度

• 相对熵：描述两个分布之间的差异程度

十一、Python 示例

下面给出两个简单示例，用来说明信息熵的基本计算方式。

示例 1：手动计算一个二分类分布的信息熵

import math # 二分类概率p1 = 0.5p2 = 0.5 # 计算信息熵entropy = - (p1 * math.log2(p1) + p2 * math.log2(p2)) print("类别概率：", p1, p2)print("信息熵：", entropy)

这个例子展示了最基本的二分类信息熵计算。

当两个类别概率相等时，不确定性较高，因此熵较大。

示例 2：写一个通用函数计算多分类信息熵

import math def entropy(probs): return -sum(p * math.log2(p) for p in probs if p > 0) # 三分类概率probs = [0.2, 0.5, 0.3] # 计算信息熵h = entropy(probs) print("类别概率：", probs)print("信息熵：", h)

这个例子展示了更一般的情形。

只要给出一个概率分布，就可以计算它对应的信息熵。

📘 小结

信息熵是一种用来衡量概率分布不确定性大小的指标。它的核心意义是：结果越难预测、类别越均匀混杂，信息熵通常越高；结果越确定、类别越集中，信息熵通常越低。在决策树、信息增益、概率建模和机器学习中，信息熵都非常重要。对初学者而言，可以把它理解为：一个系统在结果揭晓之前，越让人难猜，它的信息熵就越高。

“点赞有美意，赞赏是鼓励”

AI 术语通俗词典：信息熵

如何用Logitech鼠标宏实现PUBG零后坐力压枪？3步快速上手指南

AD8232心电监测系统：如何用开源硬件突破生物电信号采集的技术壁垒？

ComfyUI玩转WD1.4反推标签：避开onnxruntime-gpu与TensorRT的版本坑，保姆级环境配置指南

【VS Code Dev Containers 面试通关宝典】：20年资深架构师亲授12个高频真题+避坑口诀

一文吃透微服务：从单体到RPC、服务治理、下一代架构Service Mesh

Spring Boot AOP 面向切面编程：从原理到实战，一篇就会