news 2026/1/31 2:55:25

机器学习:认识随机森林

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习:认识随机森林

集成学习的含义:

集成学习是将多个基学习器进行组合, 来实现比单一学习器显著优越的学习性能。

多个相对简单的基学习器(如基学习器1、基学习器2……基学习器n)依次训练,前序基学习器的经验指导后续基学习器聚焦易错处,最终将这些基学习器的能力整合,形成精度与泛化能力更强的强学习器,实现“多个弱学习器合力成强学习器”的效果,像AdaBoost、XGBoost等流行算法都基于此思路设计。

集成学习的代表:

bagging方法:典型的是随机森林

boosting方法:典型的是Xgboost

stacking方法:堆叠模型

XGBoost和随机森林两种集成学习算法

相同点分析

树的组成与结果决定方式:二者均由多棵树构成,并且最终结果都由这些树共同决定。这意味着它们都不是依赖单一决策树进行预测或分类,而是综合多棵树的输出来得到更可靠的结果。

CART树的应用:在使用CART(分类与回归树)树的情况下,它们既可以被用作分类树处理分类任务,也可以作为回归树处理回归任务。这体现了这两种算法在树类型应用上的灵活性。

不同点分析

树的生成方式:随机森林中组成它的树能够并行生成。这使得在训练过程中可以利用多核处理器等硬件资源加速训练过程。而XGBoost是串行生成树的,后一棵树的生成依赖于前面树的结果,相对来说训练速度可能会受到一定影响,但这种串行机制也有助于更好地拟合数据和处理复杂的非线性关系。

结果计算方式:随机森林的结果是通过多数表决得出的。比如在分类任务中,将所有树的分类结果进行统计,得票最多的类别就是最终的预测类别;在回归任务中,通常是对所有树的预测值求平均等方式。XGBoost则是多棵树预测结果的累加之和,这种方式使得它能够不断修正之前树的预测误差,逐步提升模型性能。

对异常值的敏感性:随机森林对异常值不敏感,因为它是基于多个树的集成,在面对少量异常值时,整体的预测结果不会受到太大影响。而XGBoost对异常值比较敏感,异常值可能会在树的构建过程中产生较大影响,进而影响整个模型的性能 。

集成学习的应用:

1.分类问题集成。

2.回归问题集成。

3.特征选取集成。

Bagging 之随机森林

随机森林 (Random Forest):

  1. 什么是随机森林?

随机森林是一种集成学习(Ensemble Learning)算法。它通过构建并结合多个弱学习器(通常是决策树)来形成一个强学习器,以做出预测或进行分类。与单一的决策树相比,随机森林通过综合多个树的判断结果,通常能够提供更高的准确率、更好的泛化能力和更强的鲁棒性。

  1. 随机森林的特点?

(1) 数据采样随机:​ 随机森林在构建每一棵决策树时,都会从原始训练集中采用有放回抽样的方式(即Bootstrap抽样)随机选取一个子数据集。这意味着不同的树可能基于略有不同的数据进行训练。

(2) 特征选取随机:​ 在构建每一棵决策树的每个内部节点(分裂点)时,不会考虑所有的特征,而是从所有特征中随机选取一个特征子集,然后在这个子集中选择最优的特征进行分裂。这增加了树与树之间的多样性。

(3) 森林:​ “森林”指的是该算法由大量(通常是数百到数千棵)独立的决策树组成。这些树并行构建。

(4) 基分类器为决策树:​ 随机森林中的每一个“弱学习器”或者说“基分类器”都是一个决策树。最终模型的输出是所有这些决策树输出的某种统计汇总(例如,对于分类问题通常是投票,对于回归问题通常是平均)。

  1. 为什么使用随机森林?

使用随机森林主要有以下几个原因:

高准确性:​ 通过集成多棵决策树,随机森林通常能提供比单棵决策树更高的预测准确率。

良好的泛化能力:​ 由于采用了Bootstrap抽样和特征随机选取,随机森林能有效降低模型的方差(Variance),减少过拟合的风险,从而在新数据上表现更好。

鲁棒性强:​ 对噪声数据和异常值具有较强的抵抗力。

处理高维数据:​ 能够有效地处理特征数量很多的数据集。

可以评估特征重要性:​ 随机森林算法可以很方便地计算出各个输入特征对模型预测结果的重要性排序。

不易过拟合:​ 尽管每棵树都可能过拟合,但通过平均或投票,整体的预测误差通常会降低。

可扩展性好:​ 算法相对容易并行化,可以处理大规模数据。

适用于多种任务:​ 可用于分类、回归、特征选择等多种机器学习任务。

随机森林生成步骤

随机森林优点:

1.具有极高的准确率。

2.随机性的引入,使得随机森林的抗噪声能力很强。

3.随机性的引入,使得随机森林不容易过拟合。

4.能够处理很高维度的数据,不用做特征选择。

5.容易实现并行化计算。

随机森林缺点:

当随机森林中的决策树个数很多时,训练时需要的空间和时间会较大。

随机森林模型还有许多不好解释的地方,有点算个黑盒模型。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/30 14:02:35

16、Windows资源访问与权限配置全解析

Windows资源访问与权限配置全解析 1. SkyDrive服务配置 如果不想再在设备上使用 SkyDrive 服务,可在 SkyDrive 设置对话框中点击“取消链接 SkyDrive”按钮。此操作会停止对文件的检查、处理和同步,但不会删除任何文件。若要重新启用 SkyDrive 同步功能,需重复之前的初始准…

作者头像 李华
网站建设 2026/1/22 16:24:17

5、Windows 7 全方位使用指南

Windows 7 全方位使用指南 1. 走进 Windows 7 的世界 Windows 7 以简洁优雅的用户界面和强大的功能,为用户带来了全新的计算体验。它不仅在界面设计上更加精致,还在性能和安全方面进行了优化。 1.1 Windows 7 版本介绍 Windows 7 有六个版本,其中三个标准消费版适用于桌…

作者头像 李华
网站建设 2026/1/28 13:45:38

LangChain开发者必备:LangFlow图形化界面全面介绍

LangChain开发者必备:LangFlow图形化界面全面介绍 在构建AI代理系统时,你是否曾因为反复调试提示词、更换模型或调整数据流而陷入无休止的代码修改?是否希望产品经理能直接参与流程设计,而不是仅靠会议沟通抽象逻辑?随…

作者头像 李华
网站建设 2026/1/25 20:58:27

LangFlow安全性分析:私有化部署保障数据安全

LangFlow安全性分析:私有化部署保障数据安全 在AI技术加速渗透企业核心业务的今天,如何平衡开发效率与数据安全,成为每一个技术决策者必须面对的问题。大语言模型(LLM)虽带来了前所未有的自动化能力,但其对…

作者头像 李华
网站建设 2026/1/30 4:51:07

18、非微软系统中的间谍软件应对策略

非微软系统中的间谍软件应对策略 1. 引言 如今,间谍软件、恶意软件、病毒和蠕虫等威胁正逐渐从 Windows 系统蔓延至其他平台。例如,苹果的 OS X 平台就已发现至少两个安全漏洞。尽管目前威胁相对较小,且很多时候需要用户主动操作才会中招,但一旦被攻破,后果可能不堪设想…

作者头像 李华
网站建设 2026/1/29 16:07:05

基于Java+SpringBoot+SSM竞赛团队组建与管理系统(源码+LW+调试文档+讲解等)/竞赛管理系统/团队组建工具/团队管理软件/竞赛组织平台/竞赛团队系统/团队建设与管理/竞赛管理软件

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

作者头像 李华