news 2026/1/11 15:53:45

Deep Research 只有贵族能玩?StepFun 用 32B 模型把成本打到了几毛钱

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Deep Research 只有贵族能玩?StepFun 用 32B 模型把成本打到了几毛钱

如果说 2024 年是 RAG 的元年,那么 2025 年无疑是Deep Research的“战国时代”。

前有 OpenAI 的 Deep Research 惊艳亮相,后有 Google Gemini 的强势跟进。大家都在卷一个能力:如何让 AI 不仅仅是回答问题,而是像一个真正的分析师一样,花上半小时,翻阅几百个网页,给你写一份几十页的深度研报。

但在大家的固有印象里,要做到这一点,通常意味着两件事:

  1. 模型要大:没个 70B 甚至几百 B 的参数,逻辑根本跑不通。

  2. 架构要繁:必须得搞复杂的 Multi-agent(多智能体)编排,一个管搜、一个管写、一个管审,热火朝天。

但是,今天这篇论文可能要打破你的迷思了。

主角是来自阶跃星辰(StepFun)的Step-DeepResearch。这篇技术报告最反直觉的地方在于:它只用了一个32B 的中等模型,配合最朴素的单体(Single-agent)架构,就在专业的 ResearchRubrics 评测上拿下了61.42的高分,不仅甩开了众多开源模型,甚至在这个榜单上逼近了 OpenAI 和 Gemini 的闭源旗舰 。

我们先别急着看技术原理,直接看结果。如果说有什么图能让你一眼明白这个模型的价值,非下面这张莫属:

更离谱的是它的成本——单次报告生成只要不到 0.5 元(RMB),是 OpenAI 同类服务的十分之一 。

他们是怎么做到的?是黑魔法还是硬实力?今天我们就来拆解这篇 Technical Report 背后的门道。

01 核心洞察:搜索(Search)≠ 研究(Research)

很多开发者做 Agent 时容易陷入一个误区:以为给模型配一个联网搜索工具(Search Tool),它就能做研究了。

论文一针见血地指出:Search is not Research(搜索不是研究)

  • 搜索是填空题:你问“2025 年全球 AI 市场规模是多少”,它去把这个数字找出来。

  • 研究是申论题:你需要规划方向、拆解意图、反复验证不同来源的数据、自我反思“我找得对不对”,最后把碎片化的信息整合成一篇有逻辑的报告 。

目前的很多模型,更像是一个高效的爬虫(Web Crawler),只会把网上的碎片信息堆砌给你,不仅逻辑断裂,还容易一本正经地胡说八道 。

StepFun 团队认为,要解决这个问题,不能光靠堆工具,而是要让模型内化出一套“专家的认知循环”

02 技术解密:32B 模型是如何炼成的?

既然不能靠堆参数,那就得靠“练法”。Step-DeepResearch 的核心配方非常值得玩味,主要包含三个关键词:单体架构原子能力Mid-training

1. 返璞归真的架构 (Single-agent ReAct)

在大家都在疯狂叠各种 Agent 搞“群聊”的时候,Step-DeepResearch 选择了一条看似复古的路:单体 ReAct 架构

没有任何花哨的“分身术”,就是一个脑子在干活。它依然遵循经典的“思考-行动-观察”循环 。为什么要这么做?论文认为,通过端到端的训练,让一个模型自己把规划、执行、反思全包圆了,反而比强制拆分成多个模型协作要更高效,信息损耗也更小 。

当然,敢用单体架构,前提是你对这个“单体”的能力极度自信。

2. 四大“原子能力” (Atomic Capabilities)

为了让这个 32B 的小脑瓜变聪明,团队没有直接教它“怎么写报告”,而是把研究任务拆解成了四个原子能力(Atomic Capabilities)进行特训 :

  1. Planning(规划):拿到模糊的需求,先拆解成可执行的子任务。这是为了防止模型像无头苍蝇一样乱搜 。

  2. Information Seeking(深度搜素):不是简单的关键词匹配,而是要学会“顺藤摸瓜”,根据网页的超链接去挖掘深层信息 。

  3. Reflection & Verification(反思与验证):这是最关键的。模型要学会自己问自己:“我搜到的这个数据靠谱吗?和其他来源矛盾吗?”如果错了,要自己修正 。

  4. Reporting(写作):不是简单的拼接,而是要有领域风格(Domain Style),像分析师一样去论证观点 。

3. 秘密武器:Mid-training(中间阶段训练)

这是整篇论文最硬核的部分。

通常我们训练大模型是:Pre-training(预训练) -> SFT(精调)。但 StepFun 在这两者中间插了一个Agentic Mid-training

这就像是一个学生在读完通识教育(Pre-training)后,不要急着去学写具体的八股文(SFT),而是先上一门“逻辑与研究方法论”的必修课

在这个阶段,他们构造了大量的数据,把 Context 长度从 32K 一路拉练到 128K 。

  • 32K 阶段:不给工具,纯靠阅读长文档,逼模型学会从海量文字里提炼逻辑 。

  • 128K 阶段:上强度,引入工具调用、网页浏览、复杂规划,让模型适应超长上下文的决策 。

正是这个Mid-training,把模型从“预测下一个字”的语言模型,强行扭转成了“预测下一个行动”的决策模型 。

03 效果验证:不但强,而且省

光说不练假把式。效果到底怎么样?

这里的图最能说明问题

ResearchRubrics评分上:

  • Gemini DeepResearch: 63.69

  • Step-DeepResearch: 61.42

  • OpenAI DeepResearch: 60.67

  • Kimi-Researcher: 53.67

是的,你没看错,它在这个榜单上甚至微弱领先了 OpenAI 。

自建的“魔鬼考场”:ADR-Bench

作者还顺手吐槽了一下现在的评测集(比如 BrowseComp)太简单了,全是找事实的填空题 。

于是他们搞了个ADR-Bench,专门收录真实世界的刁钻问题,还分了通用版和金融/法律专业版

在最难啃的金融/法律领域,虽然 Gemini 依然是老大(Tier 1),但 Step-DeepResearch 稳稳站住了 Tier 2 的头部位置,和 OpenAI、Kimi 处于同一梯队,把其他模型甩在了后面 。这也说明了,在极度专业的领域,Agent 的流程优化固然重要,但模型本身的领域知识储备依然是硬门槛。

04 The Takeaway

Step-DeepResearch 给当下的 AI 行业打了一剂强心针。它证明了Deep Research 不一定是千亿模型或超级大厂的专利。

这篇论文最大的启示在于:

  1. 数据质量 > 模型参数:通过精心构造的“原子能力”合成数据,中等模型也能涌现出专家级的思考回路。

  2. 训练范式的胜利:Mid-training 可能会成为未来 Agent 模型的标配,它填补了“懂知识”和“会干活”之间的巨大鸿沟。

  3. 单体架构的潜力:别急着搞多智能体,先把单体的脑子练好,有时候“少即是多”。

对于我们普通开发者或企业来说,这意味着部署一个专家级 AI 研究员的成本,正在从“奢侈品”变成“日用品”。

Next Step:你对这种“小模型+强训练”的路线怎么看?欢迎在评论区分享你的看法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/27 16:58:05

环境配置还是依赖冲突?,深度剖析Open-AutoGLM运行报错根源

第一章:环境配置还是依赖冲突?,深度剖析Open-AutoGLM运行报错根源在部署 Open-AutoGLM 项目时,开发者常遭遇启动失败或模块导入错误。这些问题表面看似环境配置疏漏,实则多由 Python 依赖包版本冲突引发。深入分析发现…

作者头像 李华
网站建设 2026/1/1 19:50:30

给AI装个“大脑管家”:拆解智能体数据全生命周期管控系统

作为一名深耕AI领域的PM,最近我发现一个有趣的现象:大家都在讨论大模型有多聪明,却很少有人关心它的“记忆”和“营养”是怎么管理的。如果大模型是一个超级大脑,那么AI智能体就是在这个大脑指挥下能干活的手和脚。 但是&#xf…

作者头像 李华
网站建设 2025/12/28 2:30:07

Open-AutoGLM独立出来了(核心能力全面升级)

第一章:Open-AutoGLM 独立出来了随着大模型自动化推理需求的增长,Open-AutoGLM 正式从原框架中解耦,成为一个独立运行的开源项目。这一变化不仅提升了模块化程度,也使得开发者能够更灵活地集成和扩展其功能。项目结构优化 独立后的…

作者头像 李华
网站建设 2025/12/26 13:18:44

基于SpringBoot的小型哺乳类宠物诊所管理系统 宠物医院管理系统4339s0c8

目录已开发项目效果实现截图开发技术介绍核心代码参考示例1.建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!已开发项目效果…

作者头像 李华
网站建设 2026/1/11 9:00:44

PaddlePaddle戏曲唱腔分析AI模型

PaddlePaddle戏曲唱腔分析AI模型技术解析 在数字技术席卷各行各业的今天,那些曾经依赖口传心授、手抄乐谱传承的艺术形式正面临前所未有的挑战与机遇。传统戏曲,作为中华文化绵延数百年的声音记忆,其唱腔中蕴含的音律之美、情感之深&#xff…

作者头像 李华
网站建设 2026/1/11 1:39:36

PaddlePaddle谜语生成与解答AI

PaddlePaddle谜语生成与解答AI 在智能音箱里听AI讲个冷笑话已经不稀奇了,但如果它能出口成章地编一个“麻屋子,红帐子,里面住着白胖子”的中文谜语,并且还能反过来猜出你随口说的谜面——这背后考验的可就不只是算法,…

作者头像 李华