POINTS-Seeker 最值得关注的,不是它又刷新了某些多模态搜索 benchmark,而是它把 Agent 能力的来源问题摆到了台前。
过去一段时间,Agent 产品最常见的做法,是先选一个基础模型,再在外面接搜索、浏览器、代码执行器、记忆模块、规划器和工作流引擎。模型负责理解和生成,外部系统负责调工具、管流程、存状态。这样做很务实,也确实推动了很多 Agent 应用落地。
但这种路线背后有一个越来越重要的问题:Agent 的能力到底应该靠外部工作流拼出来,还是应该在模型训练阶段就内化进去?
POINTS-Seeker 这篇论文,表面上是在训练一个多模态搜索 Agent,核心问题却不只是“模型能不能搜索”。它真正讨论的是:当任务变复杂以后,模型是否应该只做一个被工作流调度的语言接口,还是应该从训练阶段就具备主动查证、规划搜索、整合证据和管理历史的能力。
https://arxiv.org/pdf/2604.14029
这也是这篇论文最值得关注的地方。
POINTS-Seeker 的完整标题是 POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch。从标题可以看出,作者想做的不是给一个多模态模型外挂搜索工具,而是从训练链路上构造一个原生具备搜索行为的多模态 Agent。
现在很多多模态模型已经可以看图、识别对象、理解问题,也能完成一些简单的视觉问答。但一旦问题涉及实时信息、冷门知识、多跳推理或者图像与网页信息的联合判断,模型仅靠参数里的静态知识就很容易出错。于是,一个自然的方案是给模型接上搜索工具,让它可以查网页、查图片、访问页面,再根据搜索结果回答。
问题在于,会调用搜索工具,并不等于真正具备搜索型 Agent 能力。很多模型可以学会固定格式的工具调用,却不一定知道什么时候该查、该查什么、搜索结果之间如何互相验证,以及证据足够时什么时候停止。它们可能调用了工具,却没有形成稳定的调查路径;也可能已经搜到了关键证据,但在后续长上下文中没有真正用上。
POINTS-Seeker 切入的就是这个缝隙。它关注的不是“模型能不能接搜索”,而是“搜索这种能力能不能从训练阶段开始被塑造成模型内部的一部分”。
Agent 能力不能只靠最后补课
很多 Agent 系统的训练或搭建方式,是先拿一个已经训练好的通用模型,然后在最后阶段教它使用工具。比如给它一些 ReAct 格式的数据,让它学会先思考、再调用工具、再根据工具结果继续回答。这个方法有效,但也容易让工具使用变成一种“表层技能”。
所谓表层技能,就是模型看起来会调用工具,也能按格式输出,但它对任务推进的理解还不够深。它可能把搜索当成一个动作模板,而不是把搜索当成解决问题的一部分。遇到简单问题时,这种能力足够;遇到复杂多轮任务时,模型就容易出现搜索方向漂移、证据利用不足、重复调用工具或者过早给出答案的问题。
POINTS-Seeker 的思路更进一步。作者没有把 Agent 能力放到最后阶段临时补,而是在模型训练链路中间加入了一个 Agentic Seeding 阶段。这个词可以直译为“智能体能力播种”。它的意思是,在正式训练搜索任务之前,先让模型接触多模态推理、文本推理和工具使用相关数据,让模型提前形成一种基本的 Agent 行为习惯。
这一步很关键。因为搜索型 Agent 的核心不只是工具调用格式,而是任务推进方式。模型需要先理解当前问题为什么不能直接回答,再判断应该补充什么信息;当图像信息不足时,它可能需要先借助图像搜索确认主体;当主体明确后,又需要转向网页搜索或页面访问做事实查证。搜索结果返回以后,模型还要判断哪些内容是有效证据,哪些只是噪声,最后再把多个片段整合成一个可靠答案。
这些能力如果完全依赖外部工作流,系统当然也能跑起来,但模型本身会比较被动。Agentic Seeding 的价值就在于,它试图让模型在训练阶段先长出一部分“主动调查”的行为模式。
POINTS-Seeker 是怎么训练出来的?
这篇论文的方法可以理解为四个连续阶段:先播种 Agent 基础能力,再用搜索轨迹教模型怎么完成任务,然后用强化学习修正行为,最后用 V-Fold 解决长历史问题。
这里最重要的是数据构造。作者没有只拿“图像、问题、答案”这种普通问答数据去训练,因为这种数据只能教模型从输入直接到输出,无法教会模型中间如何搜索。POINTS-Seeker 构造的是完整的搜索轨迹:模型先观察图像和问题,判断当前信息是否足够;如果不够,就生成工具调用;工具返回结果后,模型继续判断下一步该做什么,直到最终形成答案。
这种数据形式的意义很大。普通问答数据训练的是回答器,搜索轨迹数据训练的是任务执行过程。前者让模型学会“看到问题给答案”,后者让模型学会“在信息不足时如何一步步查证”。这也是 Agent 和普通问答模型的核心区别之一。
论文里还用了强模型来生成和筛选这些轨迹。简单说,就是先让更强的模型生成多轮搜索过程,再用另一个强模型判断最终答案是否正确,只保留质量较高的轨迹。这个做法也反映了当前 Agent 训练的一个现实:很多所谓“从头训练”的 Agent,背后仍然依赖强模型来生产过程数据。真正稀缺的不是单个答案,而是高质量、可学习、可复用的任务执行轨迹。
SFT 教它会做,RL 教它做稳
在搜索轨迹构造出来以后,POINTS-Seeker 先用监督微调让模型学习这些轨迹。这里模型真正学习的是自己应该产生的部分,比如下一步怎么思考、调用什么工具、什么时候输出答案。工具返回内容来自外部环境,不是模型要学习生成的目标。
这个设计很合理。Agent 训练的重点不是让模型背下网页内容,而是让模型学会在不同环境反馈下选择下一步动作。换句话说,模型要学的是决策方式,而不是工具结果本身。
但只做监督微调通常还不够。很多 Agent 在 SFT 之后已经“会做”,但行为并不稳定。它可能工具调用格式偶尔出错,可能在证据不足时急着回答,也可能明明已经有答案还继续搜索。于是论文又引入了工具增强的强化学习,用奖励机制去约束答案正确性、输出格式和工具调用规范。
这一步可以理解为行为打磨。SFT 像是在教模型模仿一个好的搜索过程,RL 则是在告诉模型哪些行为更值得保留。对 Agent 来说,最终效果不只取决于能力上限,也取决于行为稳定性。一个能搜但总是乱搜的模型,放到真实系统里并不好用;一个能在合适的时候搜索、合适的时候停止、合适的时候回答的模型,才更接近可用的 Agent。
V-Fold:真正有意思的是长历史怎么处理
这篇论文里最有辨识度的机制,是 V-Fold。
多轮搜索 Agent 有一个很现实的问题:每调用一次工具,上下文就会变长一点。网页搜索会返回标题、摘要和链接,页面访问会返回文本内容,图片搜索也会带来新的候选信息。几轮下来,模型上下文里会堆满历史观察、搜索结果和中间推理。
长上下文本来是为了解决信息不足,但它也会带来新的问题:信息太多以后,关键证据反而被淹没。论文观察到,很多失败案例并不是模型没有搜到答案,而是答案证据已经出现在历史里,模型后面没有真正用上。这和我们常说的“Lost in the Middle”很像,信息在上下文中间出现过,但模型注意力没有稳定覆盖到。
V-Fold 的设计很巧。它没有简单粗暴地把历史全部丢掉,也没有只做摘要压缩,而是把较早的 observation 渲染成图像,让模型通过视觉通道重新读取这些旧信息;与此同时,最近几轮 observation 仍然保留为文本,因为近期信息通常和当前推理最相关,需要更高精度地读取。
这样一来,历史就被分成了两种形态:新近信息继续以文本形式参与推理,早期信息被折叠成视觉形式保留下来。它像是把一部分聊天记录截图放回上下文里,既减少了文本 token 的压力,又没有完全丢失旧证据。
这个机制有意思的地方在于,它把 Agent 的历史管理从“把所有东西都塞进文本上下文”推进到了“用不同模态承载不同阶段的信息”。从这个角度看,V-Fold 不只是一个压缩技巧,而是在重新设计多轮 Agent 的记忆表示方式。
启发
POINTS-Seeker 的价值,不在于它证明了“搜索工具很重要”,这个结论已经不新鲜。它真正有价值的地方,是提出了一种更清晰的 Agent 训练范式:Agent 能力不能只靠系统外部堆模块,也需要在模型训练阶段逐步形成。
过去很多 Agent 工程更偏系统路线。模型像一个核心推理接口,外面接工具、接规划器、接记忆、接状态机、接工作流。这个方向仍然非常重要,因为真实产品一定需要权限控制、流程编排、审计回放和安全隔离。但系统能力解决的是“怎么管住 Agent”,模型能力解决的是“Agent 自己会不会做”。这两个问题不能互相替代。
POINTS-Seeker 的方法更偏第二个问题。它希望模型不只是被动执行外部流程,而是在内部形成搜索、规划和证据整合能力。这样做的好处是,当任务变得更长、更开放、更不确定时,模型本身不会完全依赖外部流程给它铺路,而是能在复杂交互中持续做出更合理的下一步判断。
这也是标题里“外挂”和“内化”的区别。外挂不是不好,真实 Agent 一定离不开外挂式系统能力;但如果所有能力都停留在外挂层,模型自身就会缺少任务推进的稳定性。未来更成熟的 Agent,很可能是两条路线结合:外部系统负责边界、权限和流程,模型内部负责理解、规划和决策。
局限性
POINTS-Seeker 的方向很有启发,但它并没有解决所有问题。
- 首先,它的数据构造高度依赖强模型。搜索轨迹的生成和答案质量判断,都需要更强模型参与。这说明当前 Agent 训练仍然有很强的“教师模型蒸馏”色彩。模型学到的搜索习惯、判断偏好和轨迹风格,很可能继承自教师模型。
- 其次,V-Fold 虽然设计巧妙,但把文本渲染成图像以后,细粒度信息读取能力仍然值得继续验证。在网页、表格、代码、合同、长文档这些更复杂场景里,视觉化历史是否还能稳定保留关键信息,需要更多实验支撑。
- 第三,论文对安全问题讨论不足。搜索型 Agent 一旦接入真实网页,就会面对提示注入、搜索污染、恶意页面、伪造证据和工具滥用等问题。POINTS-Seeker 主要评估准确率和长历史效果,没有系统讨论这些攻击面。
- 最后,它的任务仍然集中在多模态搜索问答。真实 Agent 还会涉及写文件、发邮件、修改代码、调用业务系统、执行交易等高风险动作。搜索能力只是 Agent 能力的一部分,距离真正高风险环境里的可靠自治,还有很长距离。
写在最后
POINTS-Seeker 最值得关注的,不是它又刷新了某些多模态搜索 benchmark,而是它把 Agent 能力的来源问题摆到了台前。
过去我们习惯把 Agent 看成“模型加工具”。这当然没错,但这个定义越来越不够用了。随着任务变复杂,真正决定 Agent 上限的,不只是工具数量,也不是工作流节点数量,而是模型是否具备稳定的任务推进能力。它是否知道什么时候查证,是否能在多轮搜索中保持目标,是否能整合分散证据,是否能在历史变长后仍然抓住关键线索。
POINTS-Seeker 给出的答案是:这些能力不能全部留给外部系统临时拼装,至少有一部分应该在训练阶段进入模型内部。
从 AI 安全角度看,这个判断同样成立。未来 Agent 安全也不能只依赖外挂式护栏。权限控制、内容审核、工具沙箱当然重要,但模型自己是否理解外部内容不可信、是否知道高风险动作需要谨慎、是否能在长任务中持续遵守边界,也会变得越来越关键。
所以,这篇论文真正值得记住的一句话是:Agent 的竞争正在从“能不能接工具”,走向“工具使用能力有没有长进模型里”。