news 2026/5/15 3:34:52

[信息论与编码理论专题-19]:信息熵的量化,通俗易懂!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[信息论与编码理论专题-19]:信息熵的量化,通俗易懂!

我们用完全不用公式、只靠生活直觉的方式,讲清楚信息熵是怎么被“量化”(也就是用数字衡量)的。


🌟 核心思想一句话:

信息熵的单位是“比特”(bit),它表示:
“要搞清一件事,平均最少需要问多少个‘是/否’问题。”


🧩 举个经典例子:猜数字(1 到 8)

假设我想一个 1 到 8 之间的整数,你来猜。每次你只能问“是/否”问题(比如“大于4吗?”)。

最聪明的问法(二分法):
  1. “大于4吗?” → 是 → 范围缩小到 {5,6,7,8}
  2. “大于6吗?” → 否 → 范围缩小到 {5,6}
  3. “是5吗?” → 是 → 猜中!

刚好问了 3 个“是/否”问题

而且无论我想的是哪个数(1~8),你最多只需 3 问就能确定。

🔑 所以:这件事的“信息熵”就是 3 比特(bits)。

为什么?因为 1~8 共 8 种可能,而

2^3=8

→ 需要 3 个“是/否”(每个提供 1 比特信息)才能区分 8 种情况。


📏 熵的量化规则(通俗版)

表格

可能结果数量最少需要几个“是/否”问题?熵(比特)
2 种(如硬币正反)1 问1 bit
4 种(如扑克花色)2 问2 bits
8 种3 问3 bits
16 种4 问4 bits
NN 种(等概率)log⁡2Nlog2​N 问log⁡2N bits

熵 = 把所有可能性“砍半”直到剩一个,平均需要砍几次


⚖️ 如果结果不是“等概率”呢?

现实往往不公平!比如:

一个袋子里有:

  • 7 个红球
  • 1 个蓝球
    你随机摸一个,我猜颜色。
  • 如果摸到红球(概率 7/8):我大概率猜“红”,很容易猜对 →获得的信息少
  • 如果摸到蓝球(概率 1/8):哇!太意外了 →获得的信息多

但熵是“平均”信息量!

怎么算平均?
  • 大部分时候(7/8)你只得到一点点信息;
  • 很少时候(1/8)你得到很多信息;
  • 平均下来,总信息量小于 1 比特(因为比公平硬币更可预测)。

💡 直观感受:

  • 公平硬币(正反各50%):熵 =1 bit(最难猜)
  • 这个红蓝球袋子:熵 ≈0.54 bit(更容易猜,所以熵更低)

越偏向某一个结果,熵越小;越公平,熵越大


🛠️ 为什么用“比特”做单位?

因为:

  • 计算机底层只有0 和 1(相当于“否”和“是”);
  • 1 比特 = 1 个二进制选择
  • 所有信息最终都可以拆成一串“是/否”判断。

所以,熵用“比特”量化,直接对应了“存储或传输它所需的最小数据量”

📌 例子:

  • 英文文本的熵约为4.7 比特/字母(因为有些字母常出现,如 e, t;有些很少,如 z, q)
  • 所以理论上,英文可以压缩到原始大小的 4.7/8 ≈ 60%(因为 ASCII 用 8 比特存一个字母)

✅ 终极通俗总结:

表格

问题回答
信息熵怎么量化用“比特(bit)”
1 比特是什么1 个“是/否”问题所包含的信息量
熵 = 3 比特意味着什么平均需要 3 个“是/否”问题才能确定结果
熵高 vs 熵低熵高 = 难猜、公平、信息量大;熵低 = 好猜、偏科、信息量小

🎮 小测试(自测理解):

  1. 抛一枚两面都是正面的硬币,熵是多少?
    0 比特(不用问就知道结果)
  2. 从52张扑克牌中随机抽一张,熵大约是多少?
    → 因为 25=3225=32 , 26=6426=64 ,52 在中间 →约 5.7 比特

如果你愿意,我可以带你玩一个“20个问题猜动物”的游戏,让你亲身体验“用最少的是/否问题获取最大信息”——这正是信息熵的精髓!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 10:00:40

设计家用灭火器检查提醒工具,录入灭火器位置,有效期,每月提醒检查压力,外观,到期提醒更换,避免紧急情况无法使用。

1. 实际应用场景描述 场景: 小王家里和车库各有一个灭火器,但他经常忘记检查压力表指针是否在绿色区域,也记不清灭火器的生产日期和有效期。某次厨房小火灾时,发现灭火器已经过期,险些酿成大祸。 目标: 通过…

作者头像 李华
网站建设 2026/5/11 10:01:12

7.4 Kubernetes存储故障排查:PV挂载失败、存储类问题诊断技巧

7.4 Kubernetes存储故障排查:PV挂载失败、存储类问题诊断技巧 引言 存储问题是Kubernetes集群的常见问题。通过系统化的排查方法,可以快速定位和解决存储故障。本文将详细介绍存储故障排查的技巧。 一、PV挂载失败 1.1 检查PV/PVC # 查看PV kubectl get pv# 查看PVC kub…

作者头像 李华
网站建设 2026/5/11 10:00:43

大模型Agent Skills学习路线:从技能市场到数据预测,一篇搞定

文章介绍了Agent Skills的概念、学习资源和使用方法,特别是如何通过技能市场获取趋势预测技能并应用于数据分析。Skills本质是结构化、可复用的"高级使用说明书",指导大模型按特定顺序调用工具处理问题。提供了多个学习网站和资源链接&#xf…

作者头像 李华
网站建设 2026/5/11 10:00:39

使用darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74训练图片是怎么生成权重文件的,怎么定义权重文件名?

🏆本文收录于 《全栈 Bug 调优(实战版)》 专栏。专栏聚焦真实项目中的各类疑难 Bug,从成因剖析 → 排查路径 → 解决方案 → 预防优化全链路拆解,形成一套可复用、可沉淀的实战知识体系。无论你是初入职场的开发者&…

作者头像 李华