news 2026/4/15 13:30:37

数据科学和ML领域的趋势是什么?为2026年做准备

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据科学和ML领域的趋势是什么?为2026年做准备

3个(对我来说)最突出的关键趋势

按回车键或点击以查看全尺寸图像

描绘AutoGen背后动机的漫画。图片由AutoGen提供。

这些就是在活动期间让我印象深刻的趋势,并且在某种程度上,它们已经积累了足够的动力,值得密切关注。

1. 从传统分析到智能体分析

我们正在进入分析的新阶段。在这个阶段,仪表盘和静态报告已经不够用了。

我预计到2026年初,这个话题将变得更加热门

重点将放在创建更具活力的系统上,这些系统可以加速从数据到洞察的过程,使分析更具适应性,减少对人工探索的依赖,许多人开始将其称为自主分析。

💡有一点很明确,在这场智能分析转型中引领潮流的公司,将是那些有远见卓识,能够构建强大的数据工程基础并投资于语义建模的公司。这最终将使AI智能体能够以有意义的方式与数据进行交互。本文稍后将对此进行更多阐述。

2. 小语言模型是下一个大趋势

小型语言模型(sLMs)正变得惊人地强大。

Phi-3MistralLlama 3 8B这样的模型表明,你不需要庞大的基础设施就能获得强大的性能。通过一些微调,它们甚至可以在特定任务上超越更大的模型。

💡对于开发者和小型团队来说,这也意味着我们现在可以在普通笔记本电脑甚至手机上运行快速、私密且低成本的模型。

3. 专业化多智能体系统的兴起

一个反复出现的重要主题是向分层多智能体系统的转变。与依赖单个智能体处理整个工作流程不同,现在的新架构使用协调智能体将任务分解成更小的部分,并将其委派给专门的子智能体。

每个子智能体专注于一项微小、定义明确的任务,如清理数据、总结发现或生成代码,并在这单一任务上变得极为擅长。它们共同构成一个协调的系统,比单独工作的通用智能体更快、更便宜且更可靠。

💡这种“分而治之”的方法也为小型语言模型(sLMs)发挥更大作用打开了大门。由于每个子智能体只需要处理一项狭窄的任务,即使是轻量级模型,在精心编排的系统中组合使用时也能表现出色。

随着自主系统的成熟并投入生产使用,我们很可能会更多地看到这种设计模式。

数据科学家应该注意什么?

我的建议,尤其是给那些希望在职业发展中实现下一次飞跃的中高级数据科学家:在你所在公司引领自主分析转型。

据我所见,大多数组织才刚刚开始意识到这一变化。

这意味着你有真正的机会发挥引领作用,无论是通过倡导能够实现自主分析的现代企业工具,还是通过构建自己的智能体,使分析更快、更具交互性,且更贴近决策过程。

那些能尽早弥合AI智能体与分析之间差距的人,将塑造未来十年数据科学的实践方式。

数据科学领域的5个现实世界代理AI用例

按回车键或点击以查看全尺寸图像

TimeGPT如何将目标值的历史值和额外的外生变量作为输入来生成预测的示意图。图片由TimeGPT提供。

以下是GenAI和智能体AI已经开始产生影响的一些用例:

  1. 用于快速洞察的对话式仪表盘想象一下,你可以与之对话、用通俗易懂的英语提问,并能立即获得摘要或可视化结果的仪表盘。Power BI Copilot和Tableau Pulse是早期的例子,但这一概念适用于任何非技术用户需要从数据中快速获取答案的工作流程。

  2. EDA和数据清理代理AI代理正开始自动执行在EDA期间检测离群值、规范化数据和生成初始可视化的耗时工作。像Tableau的数据专家这样的工具暗示了如何构建代理来加速数据准备过程。

  3. 用于分析的基础模型与为每个指标或产品训练新模型不同,像 TimeGPT 这样的基础模型开始直接从原始数据处理预测、异常检测和其他分析任务。这使得高级分析更易于获取,即使对于在时间序列或模型构建方面没有深厚专业知识的团队也是如此。

  4. 自主监测与主动分析自主系统无需等待人工查看仪表盘,就能监控关键绩效指标(KPI)、发现变化,并触发警报或建议。Tableau Inspector和Adverity正在推动这一趋势,但只要设置得当,任何分析师都可以探索这一模式。

  5. ML工作流的多智能体编排像causaLens这样的平台就是AI智能体协作的一个例子,有的负责清理数据,有的负责构建模型,还有的负责解释结果。这不仅仅是自动化,更是协调,它让我们得以窥见未来ML工作流可能的运行方式。

🔑不要忽视这一点:语义层

我想再次提及这个概念,因为我觉得阅读这篇文章的很多人可能会忽略它,而这将是一个重大错误。

按回车键或点击以查看全尺寸图像

语义层架构。图片由Tallius提供。

在过去大约6个月的时间里,我花了更多时间构建自己的AI工作流程,以优化和自动化我的大部分数据科学工作。最近,我部署了一个名为“与数据对话”的Slack机器人,它正在慢慢重新定义我公司自助式分析的含义。

这些工具成功的关键之一是定义语义层。

📌这也是我正在向目前参加我的AI工作流训练营的22位数据科学家传授它的原因。

其理念很简单:语义层为指标和业务逻辑创建一个共享定义,以便数据科学家、利益相关者,最重要的是,AI智能体,都能基于同一事实来源开展工作。

按回车键或点击以查看全尺寸图像

语义层 YAML 文件示例。图片由 dbt 提供。

相信我,你不需要成为数据工程师就能开始构建语义层来增强你的AI智能体。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/6 13:41:45

PyTorch安装教程GPU版:基于PyTorch-CUDA-v2.7一键部署

PyTorch-CUDA-v2.7 一键部署:让深度学习环境搭建不再“劝退” 在AI项目开发中,你是否经历过这样的场景?刚写完一个新模型结构,满怀期待地运行训练脚本,结果终端弹出一行红色错误: ImportError: libcudart.s…

作者头像 李华
网站建设 2026/4/15 4:02:12

Spring Boot 校园物资招标竞标系统

Spring Boot 校园物资招标竞标系统介绍 在校园建设持续推进,物资采购需求日益多样化、规范化的当下,Spring Boot 校园物资招标竞标系统应运而生,为校园物资采购搭建起公平、公正、公开的交易平台,有效提升采购效率,保障…

作者头像 李华
网站建设 2026/4/4 1:19:21

免费AI论文工具实测:8款神器将AIGC率从77%压至7%,高效完成初稿!

想象一下:当你的同学还在为论文选题、熬夜码字、反复降重而焦头烂额时,你已经喝着咖啡,轻松审阅着一篇逻辑清晰、格式规范、AI痕迹几乎为零的优质初稿。这并非幻想,而是借助正确的AI工具,每位学生和研究者都能轻松实现…

作者头像 李华
网站建设 2026/4/11 21:07:35

PyTorch模型剪枝压缩技术入门

PyTorch模型剪枝压缩技术入门 在边缘计算设备、移动终端和实时推理系统日益普及的今天,一个尖锐的矛盾摆在开发者面前:我们训练出的深度神经网络越来越深、参数越来越多,而目标部署环境的算力、内存和功耗却始终受限。ResNet、BERT 这类模型在…

作者头像 李华
网站建设 2026/4/15 13:11:50

Jupyter Notebook快捷键大全:PyTorch开发提效

Jupyter Notebook快捷键与PyTorch-CUDA镜像协同提效实战 在深度学习项目中,一个常见的场景是:你正调试一个复杂的Transformer模型,前一个cell输出的注意力权重图还没收起,下一个cell又开始加载数据集,显存悄然攀升。这…

作者头像 李华
网站建设 2026/4/8 15:54:11

PyTorch安装提示No module named ‘torch‘?彻底解决

PyTorch安装提示No module named ‘torch’?彻底解决 在深度学习项目刚启动的那一刻,你满怀期待地打开终端或 Jupyter Notebook,输入一行简单的 import torch,结果却弹出令人沮丧的错误: ModuleNotFoundError: No mo…

作者头像 李华