news 2026/2/10 7:22:31

机器学习 - 贝叶斯定理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习 - 贝叶斯定理

摘要:贝叶斯定理是概率论基础概念,亦是机器学习中概率推理与决策的核心,其数学公式为 P (A | B) = P (B | A) × P (A) / P (B),可基于新证据更新事件发生概率,广泛应用于垃圾邮件过滤、医疗诊断、图像识别等场景,在机器学习中常用于贝叶斯推断以更新模型参数认知。在 Python 中,scikit-learn 库可实现该定理相关功能,以文本分类为例,通过加载 20 个新闻组数据集并选取 4 个类别,利用 CountVectorizer 将文本转换为词袋模型向量,再训练多项式朴素贝叶斯分类器,经最大似然估计求解模型参数后,在测试集上预测并计算准确率,最终该分类器准确率达 0.934 左右,展现了贝叶斯定理在实际任务中的有效性。

目录

机器学习 - 贝叶斯定理

Python 实现

示例代码

代码说明

输出结果


机器学习 - 贝叶斯定理

贝叶斯定理是概率论中的一个基础概念,在机器学习中有着诸多应用。它允许我们在获得新证据的情况下,更新对某个事件发生概率的认知。实际上,它是概率推理和决策制定的基础。

贝叶斯定理指出,在给定证据 B 的条件下事件 A 发生的概率,等于在给定事件 A 的条件下证据 B 出现的概率乘以事件 A 的先验概率,再除以证据 B 的概率。用数学公式可表示为:

其中:

  • P (A | B):给定证据 B 时事件 A 发生的概率(后验概率)
  • P (B | A):给定事件 A 时证据 B 出现的概率(似然度)
  • P (A):事件 A 的先验概率(我们对事件 A 发生概率的初始认知)
  • P (B):证据 B 的概率(总概率)

贝叶斯定理的应用范围广泛,例如垃圾邮件过滤、医疗诊断和图像识别等领域。在机器学习中,贝叶斯定理常用于贝叶斯推断 —— 这是一种基于新数据更新模型参数认知的统计技术。

Python 实现

在 Python 中,有多个库可实现贝叶斯定理和贝叶斯推断。其中最常用的是 scikit-learn 库,该库提供了一系列机器学习和数据分析工具。

下面以一个实例说明如何使用 scikit-learn 库在 Python 中实现贝叶斯定理。假设我们有一个电子邮件数据集,其中部分邮件为垃圾邮件,其余为非垃圾邮件。我们的目标是构建一个分类器,能够准确预测新邮件是否为垃圾邮件。

我们可以利用贝叶斯定理,根据邮件的特征(如主题或正文中的词汇)计算该邮件为垃圾邮件的概率。要实现这一点,首先需要估计模型的参数 —— 即垃圾邮件和非垃圾邮件的先验概率,以及每个特征在对应类别(垃圾邮件或非垃圾邮件)下的似然度。

这些概率可以通过最大似然估计或贝叶斯推断来求解。本实例将使用多项式朴素贝叶斯算法,这是朴素贝叶斯算法的一种变体,常用于文本分类任务。

示例代码

from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import accuracy_score # 加载20个新闻组数据集 categories = ['alt.atheism', 'comp.graphics', 'sci.med', 'soc.religion.christian'] train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42) test = fetch_20newsgroups(subset='test', categories=categories, shuffle=True, random_state=42) # 使用词袋模型表示文本数据 vectorizer = CountVectorizer() X_train = vectorizer.fit_transform(train.data) X_test = vectorizer.transform(test.data) # 训练多项式朴素贝叶斯分类器 clf = MultinomialNB() clf.fit(X_train, train.target) # 在测试集上进行预测并计算准确率 y_pred = clf.predict(X_test) accuracy = accuracy_score(test.target, y_pred) print("准确率:", accuracy)

代码说明

  1. 首先加载 20 个新闻组数据集,该数据集包含多个类别的新闻组帖子。我们选取了 4 个类别(无神论、计算机图形学、医学科学、基督教宗教),并将数据分为训练集和测试集。
  2. 使用 scikit-learn 库中的 CountVectorizer 类将文本数据转换为词袋模型表示。这种表示方式会统计文本中每个词汇的出现次数,并将其表示为向量形式。
  3. 调用 fit () 方法训练多项式朴素贝叶斯分类器,该方法通过最大似然估计求解先验概率和每个词汇在对应类别下的似然度。训练完成后,可使用 predict () 方法在测试集上进行预测。
  4. 最后利用 scikit-learn 库中的 accuracy_score () 函数计算分类器的准确率。

输出结果

运行上述代码后,将得到以下输出:准确率: 0.9340878828229028

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/8 16:03:30

雷诺与法国国家橄榄球队,在紧张激烈的体育影片中庆祝愿景

雷诺与法国国家橄榄球队合作六年,双方在一部紧张激烈的体育影片中共同庆祝彼此的愿景。因为在橄榄球运动中,正如雷诺的愿景一样,必须回顾过去才能展望未来。橄榄球是唯一一项必须通过向后传球来推进并取得优势的运动。这一独特之处正是这项运…

作者头像 李华
网站建设 2026/2/9 22:03:12

还得是腾讯,Claude Code迎来最强中国对手!企业Agent有救了~

大家好,我是最近天天折腾CLI Agent的袋鼠帝。 一周前,我给大家安利了一款Claude Code的最强开源对手:OpenCode,没想到文章发出去后反响这么热烈,不管是阅读量还是评论都非常多。 这也再次印证了,天下苦Ant…

作者头像 李华
网站建设 2026/2/8 7:05:32

深入解析微软Outlook远程代码执行高危漏洞(CVE-2023-36895)

Microsoft Outlook 远程代码执行漏洞 (CVE-2023-36895) 摘要 本文讨论了于2023年8月8日发布的关键安全漏洞CVE-2023-36895,该漏洞与微软Outlook相关。文章分析了该漏洞的影响、严重性及其潜在风险,并探讨了微软为解决此漏洞提供的修复步骤和官方补丁。 引…

作者头像 李华
网站建设 2026/2/8 19:10:19

爆火的AI Agent究竟是啥?一篇文章给你讲透!(内含实例)

*一、前言:AI Agent火爆登场!* 要说今年上半年科技圈的“网红”,AI Agent(人工智能代理)绝对算一个!笔者最近也紧跟潮流,对这玩意儿进行了深入研究,还用智能体开发平台搞了几个有意…

作者头像 李华
网站建设 2026/2/9 19:51:43

银行反洗钱工作,身份核验添技术支撑

反洗钱是银行合规运营的核心要求,而精准识别客户身份是反洗钱工作的基础。护照阅读器可与银行反洗钱系统、客户识别系统无缝对接,读取护照信息后自动检索风险数据库,快速识别高风险客户或可疑交易线索。通过OCR数据与电子芯片内容交叉验证&am…

作者头像 李华
网站建设 2026/2/8 8:09:27

资源泄露:为什么你的文件句柄总是“莫名其妙”耗尽?

🚀 引言:谁动了我的句柄? “java.io.IOException: Too many open files”。 看到这个报错时,你的服务器可能已经陷入了“半死不活”的状态:无法建立新的数据库连接、无法读取配置文件、甚至连 SSH 都可能连不上。最诡异…

作者头像 李华