news 2026/4/27 2:08:48

AI 术语通俗词典:信息熵

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI 术语通俗词典:信息熵

信息熵是信息论、统计学、机器学习和人工智能中非常常见的一个术语。它用来描述:一个系统、一个变量或一个样本集合中,不确定性有多大。 换句话说,信息熵是在回答:面对一个结果还没有揭晓的事件,我们到底有多难提前猜中它。

如果说概率回答的是“某个结果出现的可能性有多大”,那么信息熵回答的就是“整体来看,这个概率分布到底有多乱、多不确定”。因此,信息熵常用于决策树划分、信息论分析、概率建模、机器学习特征选择和人工智能系统设计,在人工智能与数据分析中具有重要基础意义。

一、基本概念:什么是信息熵

信息熵(Information Entropy)通常简称为熵(Entropy)。它最初来自信息论,用来衡量一个随机变量结果的不确定程度。

若一个离散随机变量可能取 K 个结果,各结果出现的概率分别为:

那么它的信息熵可写为:

其中:

• pₖ 表示第 k 个结果出现的概率

• log₂ 表示以 2 为底的对数

• H 表示信息熵

这个公式的核心意思是:

• 如果某个结果几乎必然发生,那么系统不确定性很小,熵就低

• 如果多个结果都差不多可能发生,那么系统不确定性较大,熵就高

从通俗角度看,信息熵可以理解为:一个结果在揭晓之前,到底有多难猜。

例如:

• 如果一枚硬币永远只会出现正面,那么结果几乎没有悬念,熵很低

• 如果一枚公平硬币有一半概率正面、一半概率反面,那么结果更难提前确定,熵就更高

因此,信息熵本质上衡量的不是“结果本身有多大”,而是:结果出现之前,我们面对的整体不确定性有多强。

二、为什么叫“信息熵”

“熵”这个词最早来自物理学,用来表示系统的混乱程度。在信息论中,熵被借用来表示“信息的不确定性”或“信息的平均惊讶程度”。

之所以叫“信息熵”,是因为:一个事件越不确定,真正结果一旦揭晓时,带来的“信息量”往往越大。

例如:

如果你早就知道某件事一定会发生,那么它真的发生时,几乎没有新信息;

如果某件事本来很难预测,而它最终发生了,那么你会觉得“这件事的信息量更大”;

因此,信息熵可以理解为:在结果揭晓之前,系统平均能带来多少“未知感”或“不确定感”。

从通俗角度看:

• 熵高,说明结果更难猜,信息更“有悬念”

• 熵低,说明结果更容易猜,信息更“没悬念”

这就是“信息熵”这个名字背后的直觉来源。

三、如何直观理解信息熵

信息熵最重要的直觉,是“结果分布越平均,越难猜,熵越大;结果越集中,越容易猜,熵越小”。

1、当某个结果几乎必然发生时

例如,一个变量总是取同一个值:

• A 类概率为 1

• 其它类别概率为 0

这时,结果根本没有悬念。你在结果揭晓前几乎就已经知道答案,因此信息熵为 0。

2、当多个结果概率差不多时

例如,在二分类中:

• 正类概率为 0.5

• 负类概率为 0.5

这时,结果最难提前判断,因为两种可能性一样大。

这类情况下,信息熵较高。

3、当概率逐渐偏向某一类时

例如:

• 正类概率为 0.9

• 负类概率为 0.1

这时虽然还有不确定性,但已经不算特别难猜。

因为大多数时候会出现正类,所以熵会比 0.5 / 0.5 的情况更低。

从通俗角度看,信息熵可以理解为:

一个系统越均匀混合、越没有明显偏向,熵就越高;越一边倒、越容易判断,熵就越低。

四、信息熵的取值特点

1、当系统完全确定时,信息熵为 0

如果某个结果的概率是 1,其他结果概率都是 0,那么:

因为:

这表示系统完全没有不确定性。

2、当结果越均匀时,信息熵越大

例如,在二分类中:

若两个类别概率都是 0.5

则熵为:

这是二分类下的最大熵情况之一。

3、多分类中,类别越平均,熵也越高

例如在三分类中:若三个类别概率分别都是 1/3,那么熵会比“一个类别占绝大多数”的情况更高。

从通俗角度看:

• 熵 = 0,表示“几乎没悬念”

• 熵较高,表示“结果分布较乱,猜测难度更大”

五、信息熵的重要性与常见应用场景

1、信息熵的重要性

信息熵之所以重要,是因为它为“不确定性”提供了一个明确、可计算的度量方式。

首先,信息熵可以把“乱不乱”“难不难猜”这类直观感觉转化成具体数值。

如果没有它,我们只能模糊地说一个系统“看起来比较混乱”或“好像比较确定”;而有了信息熵之后,这种判断就变成了可计算、可比较的量。

其次,信息熵能帮助我们判断一个划分是否有效。

在机器学习中,很多任务都希望通过某种操作,让样本集合变得更纯、更确定。信息熵正好可以用来衡量“划分前后不确定性降低了多少”。

再次,信息熵是理解信息增益、决策树和概率建模的重要基础。

它不仅是一个单独术语,也是很多后续概念的起点。

可以概括地说:

• 概率描述“每种结果有多可能”

• 信息熵描述“整体结果有多不确定”

2、常见应用场景

(1)在决策树中,信息熵常用于衡量节点纯度

如果一个节点中的类别很混杂,熵就高;如果一个节点中的样本几乎都属于同一类,熵就低。

(2)在信息增益计算中,信息熵是核心组成部分

决策树在选择划分特征时,常比较不同划分前后熵减少了多少。

(3)在信息论中,信息熵用于衡量消息源的不确定性

结果越难预测,平均信息量通常越大。

(4)在概率建模中,信息熵可用于描述分布的混乱程度

不同概率分布的“散乱程度”可以通过熵来比较。

(5)在机器学习和深度学习中,交叉熵等概念也与信息熵密切相关

理解信息熵后,更容易理解交叉熵和相对熵等术语。

六、二分类中的信息熵

在二分类问题中,如果正类概率为 p,负类概率为 1 - p,那么信息熵可写为:

这个公式很有代表性,因为它能直观展示熵随概率分布变化的规律。

1、当 p = 0 或 p = 1 时

此时结果完全确定,熵为 0。

2、当 p = 0.5 时

此时两类概率完全相等,最难提前判断,熵达到较高值。

例如:

3、当 p 接近 0 或 1 时

熵会逐渐下降,因为系统越来越偏向某一边,结果越来越容易猜。

从通俗角度看,二分类熵的变化规律就是:五五开时最乱,越偏向某一边,越不乱。

七、信息熵与决策树的关系

信息熵在机器学习里最经典的应用之一,就是决策树。

在决策树中,我们希望每次划分都能让节点中的样本类别变得更清楚。

如果某个节点里样本类别很混杂,那么它的熵就高;

如果划分后子节点更纯,那么子节点熵就会降低。

这说明,决策树并不是随便选择划分特征,而是在寻找:哪种划分方式,能够让样本集合的不确定性下降得更多。

从通俗角度看,决策树在每一步都像是在问:

按这个特征分开以后,样本会不会更容易区分类别,系统会不会变得更“有序”。

而信息熵就是回答这个问题的重要工具。

八、信息熵与信息增益的关系

信息熵本身描述的是“当前有多不确定”,而信息增益(Information Gain)描述的是:做了一次划分之后,不确定性减少了多少。

如果原节点熵为:

划分后子节点加权平均熵为:

那么信息增益可写为:

这说明:信息熵是“原来的混乱程度”,信息增益是“混乱程度减少了多少”。

从通俗角度看:

• 熵是在量“乱不乱”

• 信息增益是在量“这一刀切下去,有没有让事情变得更清楚”

因此,信息熵是信息增益的基础。

九、信息熵与基尼不纯度的区别

信息熵最容易和基尼不纯度混淆,因为二者都能衡量节点纯度。

1、共同点

它们都用于刻画:节点中类别是否混杂,当前样本集合是不是够纯。

也都能用于决策树划分。

2、不同点

信息熵的公式为:

基尼不纯度的公式为:

它们数学形式不同,对概率变化的敏感方式也略有不同。

3、直观区别

可以简单理解为:

• 信息熵更强调“不确定性”

• 基尼不纯度更强调“类别混杂程度”

在很多实际任务中,它们的效果往往相近,但信息熵在信息论解释上更自然,而基尼不纯度计算通常更简单。

十、使用信息熵时需要注意的问题

1、信息熵不是“信息越多越好”的简单分数

它衡量的是不确定性,而不是“内容丰富程度”本身。

2、熵高不一定表示系统“坏”

熵高只是表示结果更难预测、不确定性更强。

在不同任务里,这未必是负面含义。

3、信息熵通常和概率分布一起理解

离开概率分布单独谈熵,往往会失去意义。

因为熵本质上是分布结构的函数。

4、在决策树中,熵低通常更理想

因为树模型通常希望节点更纯、更确定。

5、要区分信息熵、交叉熵和相对熵

它们名字相似,但含义不同:

• 信息熵:描述单个分布自身的不确定性

• 交叉熵:描述两个分布之间的匹配程度

• 相对熵:描述两个分布之间的差异程度

十一、Python 示例

下面给出两个简单示例,用来说明信息熵的基本计算方式。

示例 1:手动计算一个二分类分布的信息熵

import math # 二分类概率p1 = 0.5p2 = 0.5 # 计算信息熵entropy = - (p1 * math.log2(p1) + p2 * math.log2(p2)) print("类别概率:", p1, p2)print("信息熵:", entropy)

这个例子展示了最基本的二分类信息熵计算。

当两个类别概率相等时,不确定性较高,因此熵较大。

示例 2:写一个通用函数计算多分类信息熵

import math def entropy(probs): return -sum(p * math.log2(p) for p in probs if p > 0) # 三分类概率probs = [0.2, 0.5, 0.3] # 计算信息熵h = entropy(probs) print("类别概率:", probs)print("信息熵:", h)

这个例子展示了更一般的情形。

只要给出一个概率分布,就可以计算它对应的信息熵。

📘 小结

信息熵是一种用来衡量概率分布不确定性大小的指标。它的核心意义是:结果越难预测、类别越均匀混杂,信息熵通常越高;结果越确定、类别越集中,信息熵通常越低。在决策树、信息增益、概率建模和机器学习中,信息熵都非常重要。对初学者而言,可以把它理解为:一个系统在结果揭晓之前,越让人难猜,它的信息熵就越高。

“点赞有美意,赞赏是鼓励”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 2:07:46

如何用Logitech鼠标宏实现PUBG零后坐力压枪?3步快速上手指南

如何用Logitech鼠标宏实现PUBG零后坐力压枪?3步快速上手指南 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 你是否还在为《绝地求生…

作者头像 李华
网站建设 2026/4/27 1:49:14

一文吃透微服务:从单体到RPC、服务治理、下一代架构Service Mesh

微服务、服务治理、RPC、Service Mesh 是后端面试与架构设计的高频考点。这篇文章用通俗的逻辑,把单体架构 → 微服务 → 服务治理 → RPC框架 → 服务网格整条技术演进路线讲清楚,看完就能理解本质、应对面试。一、先搞懂:单体应用是什么&am…

作者头像 李华
网站建设 2026/4/27 1:49:13

Spring Boot AOP 面向切面编程:从原理到实战,一篇就会

AOP 是 Spring 核心特性之一,也是面试与日常开发高频使用的技能。它能帮我们无侵入地统一处理日志、权限、耗时统计、异常捕获等通用逻辑,大幅减少重复代码、降低耦合。本文用最通俗的讲解 完整可运行案例,带你彻底掌握 Spring Boot AOP。一…

作者头像 李华