2026年,多模态大模型Agent已经成为技术圈的核心热点,它们能灵活调用代码执行、网页检索、图像分析等各类工具,应对复杂的跨模态推理任务。但一个普遍存在的痛点的是:这些Agent大多“没记忆、不成长”——既不会从过往的成功案例中提炼可复用的方法,也不会从失败尝试中吸取教训,每次面对新任务都要从零开始探索,不仅在简单问题上浪费大量无效步骤,遇到复杂场景时,工具调用的组合方式也僵化死板,难以适配灵活需求。
对于小白和程序员而言,这个痛点背后藏着一个关键问题:有没有一种方法,不用重新训练模型、不用修改核心参数,就能让多模态Agent从过往的执行轨迹中持续学习,真正实现“越用越聪明”?
今天就给大家拆解2026年最新优化的XSKILL框架——一个专门针对多模态Agent的双流持续学习系统,既能解决Agent“失忆”的核心痛点,其底层逻辑也适合小白入门理解大模型Agent的学习机制,程序员更是能直接借鉴其设计思路应用到实际开发中,建议收藏备用!
两种互补的知识:技能与经验
文章将agent可复用的知识拆分为两种形式。第一种是"技能"(Skills),提供任务级别的结构化工作流和可复用的工具模板,解决的是"怎么规划、怎么编排工具"的问题。第二种是"经验"(Experiences),提供动作级别的简洁指导,捕捉特定执行场景下的策略知识,比如什么时候该选什么工具、遇到错误怎么恢复,解决的是"具体这一步怎么做决策"的问题。
技能像菜谱,经验像厨师的手感——两者缺一不可。
关键在于,XSKILL将知识的提取和检索都锚定在视觉观察上,而非仅依赖文本轨迹日志。这一点至关重要,因为在多模态场景中,很多关键决策信号来自图像本身——比如图片是否倒置、对比度是否过低——纯文本记录根本无法捕捉这些信息。
积累与推理:一个闭环
XSKILL的架构分为两个阶段。
积累阶段:对每个训练任务,agent执行多条独立轨迹。框架通过视觉锚定的轨迹摘要提取技能片段和关键决策点,再通过跨轨迹批判机制对比成功与失败的轨迹,蒸馏出可泛化的经验条目。随后进行层级化整合——语义相似度超过阈值的经验会被合并,过长的技能文档会被精简,确保知识库不会无限膨胀。
推理阶段:面对新任务时,框架先将任务分解为多个抽象子任务,针对每个子任务分别检索相关经验,再根据当前图像和任务描述对检索到的经验进行改写、对技能文档进行裁剪适配,最终以非强制性参考的方式注入agent的提示词中。agent执行完毕后,使用记录会反馈回积累阶段,形成持续学习的闭环。
文章还采用了双模型设计:一个模型负责执行推理,另一个更强的模型负责知识库的提取、整合和适配操作,并且支持跨模型知识迁移——一个模型积累的知识可以直接被另一个模型使用。
五个基准测试的实验结果
文章在VisualToolBench、TIR-Bench、MMSearch-Plus、MMBrowseComp和AgentVista五个基准上,使用Gemini-2.5-Pro、Gemini-3-Flash、GPT-5-mini和o4-mini四个骨干模型进行了评估。
核心数据:XSKILL在不同模型上将Average@4提升了2.58到6.71个百分点。在TIR-Bench上使用Gemini-3-Flash时,XSKILL达到47.75%的Average@4,比最强基线Agent-KB高出11.13个百分点。即便是使用迁移知识的GPT-5-mini和o4-mini,也获得了2.58到4.16个百分点的提升,说明外化的知识结构在不同模型架构间依然有效。
消融实验揭示了双流设计的必要性:移除经验导致性能下降3.04个百分点,移除技能下降3.85个百分点。两者扮演着截然不同的角色——技能将整体执行错误率从29.9%降至15.3%,语法错误从114个降到71个,工具名称错误几乎完全消除(从16个降到2个);而经验则显著改变了工具选择分布,在VisualToolBench上将代码解释器的使用比例从66.63%提升到74.49%,在MMSearch-Plus上将图像搜索的使用比例从15.43%提升到24.63%。
零样本跨任务迁移实验进一步表明,从一个基准积累的知识应用到另一个基准时,XSKILL在不同模型和任务上始终优于所有基线方法,平均提升2到3个百分点。这说明框架捕获的是可泛化的推理原则,而非简单的启发式规则。
文章在开源模型Qwen3-VL上的实验也值得关注:跨模型迁移的知识在较弱模型上效果参差不齐,虽然Pass@4有所提升,但Average@4在部分任务上出现下降,说明基座模型的能力是知识迁移有效性的前提条件。
一个具体的案例
文章展示了一个直观的对比:面对"车身上第二个’GOOD’文字位于什么颜色区域"的问题,没有XSKILL的agent直接凭视觉印象回答"红色"(错误),而注入了技能和经验的agent按照系统化流程裁剪感兴趣区域、进行像素级颜色采样,甚至在RGB分析结果模糊时自主转换到HSV色彩空间进行验证,最终正确回答"紫色"。
让agent从"无状态"走向"有记忆",从"每次重来"走向"越用越好",XSKILL提供了一条不需要重新训练模型的可行路径。而它的局限也很明确:当前实验验证的是单轮积累-测试循环,真正的持续迭代精化还有待进一步验证。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。