news 2026/6/10 2:16:33

5.4 信息论核心概念:熵、互信息与KL散度

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
5.4 信息论核心概念:熵、互信息与KL散度

5.4 信息论核心概念:熵、互信息与KL散度

信息论为定量分析信息的产生、传输、存储和处理提供了严格的数学框架。在人工智能领域,信息论的概念和方法不仅为理解通信和编码问题奠定基础,更重要的是,它们提供了衡量不确定性、信息内容和概率分布之间差异的基本工具,从而深刻影响了机器学习、深度学习、数据压缩和推断等多个分支。本节将系统阐述信息论中三个最核心且互相关联的概念:互信息Kullback-Leibler散度,并详细说明它们在人工智能模型构建与分析中的关键作用。

5.4.1 熵:不确定性的度量

熵是信息论中最基本的概念,它量化了一个随机变量的不确定性或“信息含量”。

  1. 定义:对于一个定义在有限字母表X\mathcal{X}X上的离散随机变量XXX,其概率质量函数为P(x)P(x)P(x)香农熵定义为:
    H(X)=−∑x∈XP(x)log⁡P(x) H(X) = -\sum_{x \in \mathcal{X}} P(x) \log P(x)H(X)=xXP(x)logP(x)
    其中,对数通常以2为底,此时熵的单位是比特;或以自然常数eee为底,单位是纳特。该定义要求约定0log⁡0=00 \log 0 = 00log0=0,因为lim⁡p→0+plog⁡p=0\lim_{p \to 0^+} p \log p = 0limp0+plogp=0。熵H(X)H(X)H(X)可以理解为,为了确定随机变量XXX的具体取值,平均所需提问的“是/否”问题的最小数量(在最优编码下)[1]。

  2. 性质与解释

    • 非负性H(X)≥0H(X) \ge 0H(X)0。等号成立当且仅当XXX以概率1取某个值(即确定性事件,无不确定性)。
    • 上界:对于定义在∣X∣|\mathcal{X}|X个元素上的随机变量,H(X)≤log⁡∣X∣H(X) \le \log |\mathcal{X}|H(X)logX。等号成立当且仅当XXX服从均匀分布。这意味着均匀分布具有最大不确定性。
    • 连续随机变量的微分熵:对于连续随机变量XXX及其概率密度函数p(x)p(x)p(x)微分熵定义为h(X)=−∫Xp(x)log⁡p(x)dxh(X) = -\int_{\mathcal{X}} p(x) \log p(x) dxh(X)=Xp(x)logp(x)dx。微分熵不具备离散熵的所有性质(例如,它可能为负值),但其相对大小和变化在许多分析中仍有意义。
  3. 联合熵与条件熵

    • 联合熵:衡量一对随机变量(X,Y)(X, Y)(X,Y)联合分布的不确定性:
      H(X,Y)=−∑x,yP(x,y)log⁡P(x,y) H(X, Y) = -\sum_{x, y} P(x, y) \log P(x, y)H(X,Y)=x,yP(x,y)logP(x,y)
    • 条件熵:衡量在已知随机变量YYY取值条件下,随机变量XXX剩余的不确定性:
      H(X∣Y)=∑yP(y)H(X∣Y=y)=−∑x,yP(x,y)log⁡P(x∣y) H(X | Y) = \sum_{y} P(y) H(X | Y=y) = -\sum_{x, y} P(x, y) \log P(x | y)H(XY)=yP(y)H(XY=y)=x,yP(x,y)logP(xy)
      可以证明:H(X,Y)=H(Y)+H(X∣Y)=H(X)+H(Y∣X)H(X, Y) = H(Y) + H(X | Y) = H(X) + H(Y | X)H(X,Y)=H(Y)+H(XY)=H(X)+H(YX)。这被称为链式法则

5.4.2 互信息:变量间依赖关系的度量

互信息量化了两个随机变量之间相互依赖的程度,或者说,知道一个变量的值能为预测另一个变量的值提供多少信息。

  1. 定义:随机变量XXXYYY之间的互信息定义为:
    I(X;Y)=∑x∈X∑y∈YP(x,y)log⁡P(x,y)P(x)P(y) I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P(x, y) \log \frac{P(x, y)}{P(x)P(y)}I<

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 23:23:41

医疗知识问答系统搭建实录——使用Kotaemon全过程

医疗知识问答系统搭建实录——使用Kotaemon全过程 在三甲医院的智能导诊台前&#xff0c;一位老年患者正皱着眉头询问&#xff1a;“我有糖尿病&#xff0c;能吃阿胶吗&#xff1f;”传统客服机器人只能机械回复“请咨询医生”&#xff0c;而新一代系统却能立刻调取《中国2型糖…

作者头像 李华
网站建设 2026/6/6 22:24:48

内网穿透工具新选择:这款免费工具如何让远程访问变得简单高效

官网&#xff1a;财运到免费内网穿透 01 免费服务的基础功能 许多内网穿透工具对核心功能收费&#xff0c;而财运到内网穿透却提供了完全免费的HTTP(S)、TCP和UDP协议支持。这使得个人开发者无需预算就能实现本地服务的远程访问。 02 零成本享受的特色功能 与传统免费工具简…

作者头像 李华
网站建设 2026/6/8 13:11:41

有多少制造企业上了ERP和MES,真正能做到批次管理和质量追溯?

生产制造企业对于管理的要求越来越高&#xff0c;ERP系统和MES系统是企业管理提升必不可少的管理工具&#xff0c;早已成为企业提升管理水平的标配。在客户提出ERP系统和MES系统的需求中&#xff0c;批次管理和追溯功能已经是“必选项”&#xff0c;需求重叠度达到90%以上。从技…

作者头像 李华
网站建设 2026/6/8 20:24:01

EmotiVoice应用于机场/车站广播系统改造

EmotiVoice应用于机场/车站广播系统改造 在大型交通枢纽的嘈杂环境中&#xff0c;一条关键信息能否被旅客准确接收&#xff0c;往往不只取决于内容本身&#xff0c;更与语音的语气、节奏和情感息息相关。你是否曾在机场听到机械感十足的“CA1835航班开始登机”&#xff0c;却几…

作者头像 李华
网站建设 2026/6/9 14:37:09

Kotaemon能否用于图书馆检索?公共文化服务创新

Kotaemon能否用于图书馆检索&#xff1f;公共文化服务创新 在智能问答系统日益普及的今天&#xff0c;图书馆这类传统知识服务机构正面临一个根本性问题&#xff1a;如何让沉睡在书架与数据库中的海量文献资源&#xff0c;真正“活”起来&#xff1f;用户不再满足于输入几个关键…

作者头像 李华
网站建设 2026/6/9 23:24:44

Fun-ASR-Nano深度评测

0. 研究背景 Fun-ASR-Nano-2512 是由阿里巴巴旗下的通义实验室开源的语音识别模型&#xff0c;通义实验室之前还开源了 SenseVoiceSmall 和 Paraformer 模型&#xff0c;这篇文章使用三种模型对多种方言&#xff0c;以及真实电话录音进行对比测试&#xff0c;在开源的数据集中…

作者头像 李华