谁对 Agent 的支持能力更好、谁的 Coding 能力更强、谁能用好工具,谁才是今天开发者更愿意选择的模型。
不再只看榜单分数,解决现实世界复杂任务的能力,成为了衡量模型的新标准。
字节在昨天发布的豆包大模型 1.8,同样选择增强了对于 Agent 的支持能力,除了继续增强 Coding 和工具使用能力之外,豆包 1.8 选择了一个更有想象力的场景——OS Agent。
一个不仅能搜索、能写代码,还能「看见」世界并且进行交互的 Agent。
不仅如此,随着模型同步发布的,还有一套基于现实世界任务的新的 Evaluation System,喊了一年的「AI 下半场」,或许这套评测集,是我们开启下半场的方式之一。
01
真正好用的基模:原生多模态+thinking
今天模型的技术发展,已经不再局限于基于文本模型了,先是 R1 和 o1 带来的 thinking 能力,然后就是厂商一直在增强的模型的视觉能力,用「眼睛」看懂和理解世界的能力。
如果 Agent 真的想成为人类现实世界复杂任务的助手,视觉能力是它们理解和执行这些复杂任务的有力保障。
过去,给大模型增加视觉理解能力一般是通过外挂的方式,在文本模型的基础上,加上 VLM 的能力,甚至单独发布一个 VLM 的模型。比如 OpenAI 在 2023 年发布的 GPT-4V 模型,而 Gemini 系列,采用了更原生、更端到端的方案,原生就是一款具备多模态理解能力的模型。
豆包模型也是这个思路,豆包 1.6 版本将 LLM 和 VLM 组合在一起,豆包 1.8 从一开始的预训练,就实现端到端的训练,不仅保留了文本的推理性能,还实现了视觉理解能力的显著提升,这才有了技术报告中的仅次于 Gemini 3 Pro 的能力表现。
数据来自豆包 1.8 Model Card
在这么短的时间内,实现对于 Gemini 系列的追赶和对标,某种角度上,也证明了基模公司之间,大家对于模型未来的发展是有共识的,无非是谁先能找到最高效的那条路而已。
至于 thinking 能力,豆包模型从 1.6 版本就实现了原生支持4种思考长度,让开发者根据场景实现思考长度的自调节,兼容不同的任务,很明显,thinking 能力是现在基模的标配,而不是可选项。
02
Agent 有了视觉能力,
解锁了更有想象力的新场景
Manus 开启了今年的 AI Agent 创业热潮,基模对于工具的调用能力成为创业者关注的重点,工具调用的可靠性问题成为了很多创业者在 Agent 场景的痛点。
豆包 1.8 版本,和今年发布的其他几款模型尤其是国产模型 Kimi K2、MiniMax M2 一样,重点增强了 Agent 使用工具的能力。
从技术报告中可以看出,豆包 1.8 在工具调用、智能体搜索、智能体编程和复杂指令遵循上都有了能力的大幅提升。
官方演示的调用工具的案例
从演示案例中可以明显看出,在 Agent 之外,豆包 1.8 核心的 agent 能力是 OS Agent,原生基座的视觉能力使它能够「看见」并直接与界面交互。
电脑、网页、移动端三类环境中任务执行能力的评测,数据来自官方 Model Çard。
能看到、能理解、能操作,带来了新的使用场景和想象力。
比如常见的 GUI 操作类任务,app 调用、企业 RPA 流程的一些自动化任务,比如最近引起热议的豆包手机助手。
OS****Agent 可能带来了哪些新的可能性?
- 没有 api 或者很难提供 api 接口的系统,比如维护多年的银行 ERP、公司的内网系统等等这些传统 Agent 基本无法搞定的场景,今天可以用 OS Agent 的方式去提效了。
- 对 api 调用限制极其严格或者需要改造 api 的系统,GUI Agent 可以直接模拟网页操作,绕过 api 限制,实现跨平台的数据搬运。
- 视频理解创作更容易了,OS Agent 可以「看」懂画布。图片修改、视频修改,Agent 是通过视觉识别这些元素并拖拽鼠标完成的,而不是修改底层代码。
- 借助模型的视觉能力和自带的 Video 工具,GUI Agent 可以进行实时的视频流理解 + 动作决策。操作 app、监控视频的实时解析、甚至代打游戏不再是个难题了。
我们可以再往前畅想一步,今天是 Agent 在理解为人类设计的软件,下一步,很多软件可能会面向 Agent 设计交互,不再需要开发复杂的前端界面给人类看,软件只需要暴露一个极简的、高密度的信息界面给 Agent 看即可。
再下一步呢,Agent 可以根据当前的任务,实时生成一个临时的 UI 给人类确认,一个只需要简单交互就可以实现任务交付。
欢迎来到 Generative UI 的时代!(但可能还需要一段时间)
03
基模的「厚度」决定了 Agent 的天花板
对创业者来说,Seed 1.8 有一个重要的更新值得特别介绍下——思考模式下的工具调用,这个在 Claude Sonnet 4.5 和 DeepSeek-V3.2 中都已经推广使用的工具调用方式。核心是让模型在在保留推理状态的同时,进行多次工具调用。模型能够利用历史轮次的思考内容,最终给出更详尽准确的回答。对于长链路的 Agent 任务,保留推理状态能够显著提升最终的完成效果。
豆包 1.8 思考模式下的工具调用。
Agent 最终的能力如何,某种意义上来说,又回到基模本身的能力和厚度上。
Thinking 不再是单独的功能,而变成了基模的一个开关。
视频理解工具已经被模型原生的多模态能力吞噬了,基础模型自己就能直接「看」完一个半小时视频并回答问题。工具塌缩成了模型的感觉器官**。**
Coding 不再是一个垂直行业技能,而是它操作计算机、调用工具、处理文件的基础语言能力。当基模足够强,Coding 就从一个「应用」塌缩成了基模的标准能力。
或者可以说,很多上层应用,Agent、Coding、垂直工具的能力,最终又塌缩回基模本身。
开发者们需要做的,是搭建自己的 Context Engineering,利用模型的通用智能,去解决那些它因为缺乏数据和反馈而解决不了的「最后一公里」问题。
04
真正的 AI 下半场,
模型能力取决于你的 Evaluation
就如同姚顺雨所说,我们进入了一个「定义问题将比解决问题更重要,evaluation 比 training 更重要」的时代。
年初的 DeepSeek R1,年中的 Claude 4.5、Kimi K2、MiniMax M2,年底的 GPT-5.2、Gemini 3 Pro 和豆包 1.8,每款模型发布后,基本都会刷榜各个评测集。
但每款模型都能刷榜,也就意味着这些旧的评测集,存在的意义已经消失了。
没人再关心 GSM8K 的分数是 95 还是 96,大家只关心模型能不能独立分析完一张 Excel 表,能不能完成一项现实世界里需要花费 2h 完成的任务。
模型之间真正的能力对比,已经不是看公开榜单的做题能力了。
如何定义新的 Evaluation,在豆包 1.8 的 Model Card 中,团队发布了他们的 Evaluation System,可以当做对这个问题的一种回答。
评估系统遵循以下三个主要原则:
- 优先考虑****用户体验:首先分析真实世界的用户需求。通过研究像 ChatGPT 这样的通用模型的实际使用案例分布(例如,查信息、文本编辑和辅导是前三大类别),豆包 1.8 的评估系统涵盖了关键的流行用例,从而更好地与 C 端用户需求对齐。
OpenAI 发布的 ChatGPT 用户用例。
**转向真实世界场景:**从合成的、孤立的任务转向现实的、面向应用的场景。因为标准基准上的高分并不总是能转化为实际价值,因此,评估设计了具有高经济价值的任务,这些任务模仿了现实世界的复杂性。
**推动智能前沿:**在优先考虑实际可用性的同时,评估系统仍然致力于推进通用智能。系统通过设计涵盖高级推理、数学和编码的新基准,来衡量模型的峰值性能,确保核心智能不会因为侧重可用性而被削弱。
在和豆包模型技术人员的交流中,他们分享了一个大众以为很容易,实际上很难的场景——客服场景,就是一个很典型的从真实世界场景出发的评测任务。
客服是一个难度被低估的场景,数据分析反而比客服简单。因为像 Coding、数据分析这类任务,天然存在大量公开数据,而且比较好验证。而客服,需要获得大量的 SOP 很难,任务里涉及很多因素不好验证,中间还有幻觉,准确性要求又极高,很难做成一个 Copilot。
但如果做好了,反过来,模型能力的提升,又解锁了客服场景的新体验。比如因为 AI 的高情商,在承担客服的过程中,甚至还当上了销售,用户本来是要修手机,最后却购买了一台新的手机。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。