POINTS-Seeker：Agent 能力应该“外挂”还是“内化”？-洪萨配资

POINTS-Seeker 最值得关注的，不是它又刷新了某些多模态搜索 benchmark，而是它把 Agent 能力的来源问题摆到了台前。

过去一段时间，Agent 产品最常见的做法，是先选一个基础模型，再在外面接搜索、浏览器、代码执行器、记忆模块、规划器和工作流引擎。模型负责理解和生成，外部系统负责调工具、管流程、存状态。这样做很务实，也确实推动了很多 Agent 应用落地。

但这种路线背后有一个越来越重要的问题：Agent 的能力到底应该靠外部工作流拼出来，还是应该在模型训练阶段就内化进去？

POINTS-Seeker 这篇论文，表面上是在训练一个多模态搜索 Agent，核心问题却不只是“模型能不能搜索”。它真正讨论的是：当任务变复杂以后，模型是否应该只做一个被工作流调度的语言接口，还是应该从训练阶段就具备主动查证、规划搜索、整合证据和管理历史的能力。

https://arxiv.org/pdf/2604.14029

这也是这篇论文最值得关注的地方。

POINTS-Seeker 的完整标题是 POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch。从标题可以看出，作者想做的不是给一个多模态模型外挂搜索工具，而是从训练链路上构造一个原生具备搜索行为的多模态 Agent。

现在很多多模态模型已经可以看图、识别对象、理解问题，也能完成一些简单的视觉问答。但一旦问题涉及实时信息、冷门知识、多跳推理或者图像与网页信息的联合判断，模型仅靠参数里的静态知识就很容易出错。于是，一个自然的方案是给模型接上搜索工具，让它可以查网页、查图片、访问页面，再根据搜索结果回答。

问题在于，会调用搜索工具，并不等于真正具备搜索型 Agent 能力。很多模型可以学会固定格式的工具调用，却不一定知道什么时候该查、该查什么、搜索结果之间如何互相验证，以及证据足够时什么时候停止。它们可能调用了工具，却没有形成稳定的调查路径；也可能已经搜到了关键证据，但在后续长上下文中没有真正用上。

POINTS-Seeker 切入的就是这个缝隙。它关注的不是“模型能不能接搜索”，而是“搜索这种能力能不能从训练阶段开始被塑造成模型内部的一部分”。

Agent 能力不能只靠最后补课

很多 Agent 系统的训练或搭建方式，是先拿一个已经训练好的通用模型，然后在最后阶段教它使用工具。比如给它一些 ReAct 格式的数据，让它学会先思考、再调用工具、再根据工具结果继续回答。这个方法有效，但也容易让工具使用变成一种“表层技能”。

所谓表层技能，就是模型看起来会调用工具，也能按格式输出，但它对任务推进的理解还不够深。它可能把搜索当成一个动作模板，而不是把搜索当成解决问题的一部分。遇到简单问题时，这种能力足够；遇到复杂多轮任务时，模型就容易出现搜索方向漂移、证据利用不足、重复调用工具或者过早给出答案的问题。

POINTS-Seeker 的思路更进一步。作者没有把 Agent 能力放到最后阶段临时补，而是在模型训练链路中间加入了一个 Agentic Seeding 阶段。这个词可以直译为“智能体能力播种”。它的意思是，在正式训练搜索任务之前，先让模型接触多模态推理、文本推理和工具使用相关数据，让模型提前形成一种基本的 Agent 行为习惯。

这一步很关键。因为搜索型 Agent 的核心不只是工具调用格式，而是任务推进方式。模型需要先理解当前问题为什么不能直接回答，再判断应该补充什么信息；当图像信息不足时，它可能需要先借助图像搜索确认主体；当主体明确后，又需要转向网页搜索或页面访问做事实查证。搜索结果返回以后，模型还要判断哪些内容是有效证据，哪些只是噪声，最后再把多个片段整合成一个可靠答案。

这些能力如果完全依赖外部工作流，系统当然也能跑起来，但模型本身会比较被动。Agentic Seeding 的价值就在于，它试图让模型在训练阶段先长出一部分“主动调查”的行为模式。

POINTS-Seeker 是怎么训练出来的？

这篇论文的方法可以理解为四个连续阶段：先播种 Agent 基础能力，再用搜索轨迹教模型怎么完成任务，然后用强化学习修正行为，最后用 V-Fold 解决长历史问题。

这里最重要的是数据构造。作者没有只拿“图像、问题、答案”这种普通问答数据去训练，因为这种数据只能教模型从输入直接到输出，无法教会模型中间如何搜索。POINTS-Seeker 构造的是完整的搜索轨迹：模型先观察图像和问题，判断当前信息是否足够；如果不够，就生成工具调用；工具返回结果后，模型继续判断下一步该做什么，直到最终形成答案。

这种数据形式的意义很大。普通问答数据训练的是回答器，搜索轨迹数据训练的是任务执行过程。前者让模型学会“看到问题给答案”，后者让模型学会“在信息不足时如何一步步查证”。这也是 Agent 和普通问答模型的核心区别之一。

论文里还用了强模型来生成和筛选这些轨迹。简单说，就是先让更强的模型生成多轮搜索过程，再用另一个强模型判断最终答案是否正确，只保留质量较高的轨迹。这个做法也反映了当前 Agent 训练的一个现实：很多所谓“从头训练”的 Agent，背后仍然依赖强模型来生产过程数据。真正稀缺的不是单个答案，而是高质量、可学习、可复用的任务执行轨迹。

SFT 教它会做，RL 教它做稳

在搜索轨迹构造出来以后，POINTS-Seeker 先用监督微调让模型学习这些轨迹。这里模型真正学习的是自己应该产生的部分，比如下一步怎么思考、调用什么工具、什么时候输出答案。工具返回内容来自外部环境，不是模型要学习生成的目标。

这个设计很合理。Agent 训练的重点不是让模型背下网页内容，而是让模型学会在不同环境反馈下选择下一步动作。换句话说，模型要学的是决策方式，而不是工具结果本身。

但只做监督微调通常还不够。很多 Agent 在 SFT 之后已经“会做”，但行为并不稳定。它可能工具调用格式偶尔出错，可能在证据不足时急着回答，也可能明明已经有答案还继续搜索。于是论文又引入了工具增强的强化学习，用奖励机制去约束答案正确性、输出格式和工具调用规范。

这一步可以理解为行为打磨。SFT 像是在教模型模仿一个好的搜索过程，RL 则是在告诉模型哪些行为更值得保留。对 Agent 来说，最终效果不只取决于能力上限，也取决于行为稳定性。一个能搜但总是乱搜的模型，放到真实系统里并不好用；一个能在合适的时候搜索、合适的时候停止、合适的时候回答的模型，才更接近可用的 Agent。

V-Fold：真正有意思的是长历史怎么处理

这篇论文里最有辨识度的机制，是 V-Fold。

多轮搜索 Agent 有一个很现实的问题：每调用一次工具，上下文就会变长一点。网页搜索会返回标题、摘要和链接，页面访问会返回文本内容，图片搜索也会带来新的候选信息。几轮下来，模型上下文里会堆满历史观察、搜索结果和中间推理。

长上下文本来是为了解决信息不足，但它也会带来新的问题：信息太多以后，关键证据反而被淹没。论文观察到，很多失败案例并不是模型没有搜到答案，而是答案证据已经出现在历史里，模型后面没有真正用上。这和我们常说的“Lost in the Middle”很像，信息在上下文中间出现过，但模型注意力没有稳定覆盖到。

V-Fold 的设计很巧。它没有简单粗暴地把历史全部丢掉，也没有只做摘要压缩，而是把较早的 observation 渲染成图像，让模型通过视觉通道重新读取这些旧信息；与此同时，最近几轮 observation 仍然保留为文本，因为近期信息通常和当前推理最相关，需要更高精度地读取。

这样一来，历史就被分成了两种形态：新近信息继续以文本形式参与推理，早期信息被折叠成视觉形式保留下来。它像是把一部分聊天记录截图放回上下文里，既减少了文本 token 的压力，又没有完全丢失旧证据。

这个机制有意思的地方在于，它把 Agent 的历史管理从“把所有东西都塞进文本上下文”推进到了“用不同模态承载不同阶段的信息”。从这个角度看，V-Fold 不只是一个压缩技巧，而是在重新设计多轮 Agent 的记忆表示方式。

启发

POINTS-Seeker 的价值，不在于它证明了“搜索工具很重要”，这个结论已经不新鲜。它真正有价值的地方，是提出了一种更清晰的 Agent 训练范式：Agent 能力不能只靠系统外部堆模块，也需要在模型训练阶段逐步形成。

过去很多 Agent 工程更偏系统路线。模型像一个核心推理接口，外面接工具、接规划器、接记忆、接状态机、接工作流。这个方向仍然非常重要，因为真实产品一定需要权限控制、流程编排、审计回放和安全隔离。但系统能力解决的是“怎么管住 Agent”，模型能力解决的是“Agent 自己会不会做”。这两个问题不能互相替代。

POINTS-Seeker 的方法更偏第二个问题。它希望模型不只是被动执行外部流程，而是在内部形成搜索、规划和证据整合能力。这样做的好处是，当任务变得更长、更开放、更不确定时，模型本身不会完全依赖外部流程给它铺路，而是能在复杂交互中持续做出更合理的下一步判断。

这也是标题里“外挂”和“内化”的区别。外挂不是不好，真实 Agent 一定离不开外挂式系统能力；但如果所有能力都停留在外挂层，模型自身就会缺少任务推进的稳定性。未来更成熟的 Agent，很可能是两条路线结合：外部系统负责边界、权限和流程，模型内部负责理解、规划和决策。

局限性

POINTS-Seeker 的方向很有启发，但它并没有解决所有问题。

首先，它的数据构造高度依赖强模型。搜索轨迹的生成和答案质量判断，都需要更强模型参与。这说明当前 Agent 训练仍然有很强的“教师模型蒸馏”色彩。模型学到的搜索习惯、判断偏好和轨迹风格，很可能继承自教师模型。
其次，V-Fold 虽然设计巧妙，但把文本渲染成图像以后，细粒度信息读取能力仍然值得继续验证。在网页、表格、代码、合同、长文档这些更复杂场景里，视觉化历史是否还能稳定保留关键信息，需要更多实验支撑。
第三，论文对安全问题讨论不足。搜索型 Agent 一旦接入真实网页，就会面对提示注入、搜索污染、恶意页面、伪造证据和工具滥用等问题。POINTS-Seeker 主要评估准确率和长历史效果，没有系统讨论这些攻击面。
最后，它的任务仍然集中在多模态搜索问答。真实 Agent 还会涉及写文件、发邮件、修改代码、调用业务系统、执行交易等高风险动作。搜索能力只是 Agent 能力的一部分，距离真正高风险环境里的可靠自治，还有很长距离。

写在最后

POINTS-Seeker 最值得关注的，不是它又刷新了某些多模态搜索 benchmark，而是它把 Agent 能力的来源问题摆到了台前。

过去我们习惯把 Agent 看成“模型加工具”。这当然没错，但这个定义越来越不够用了。随着任务变复杂，真正决定 Agent 上限的，不只是工具数量，也不是工作流节点数量，而是模型是否具备稳定的任务推进能力。它是否知道什么时候查证，是否能在多轮搜索中保持目标，是否能整合分散证据，是否能在历史变长后仍然抓住关键线索。

POINTS-Seeker 给出的答案是：这些能力不能全部留给外部系统临时拼装，至少有一部分应该在训练阶段进入模型内部。

从 AI 安全角度看，这个判断同样成立。未来 Agent 安全也不能只依赖外挂式护栏。权限控制、内容审核、工具沙箱当然重要，但模型自己是否理解外部内容不可信、是否知道高风险动作需要谨慎、是否能在长任务中持续遵守边界，也会变得越来越关键。

所以，这篇论文真正值得记住的一句话是：Agent 的竞争正在从“能不能接工具”，走向“工具使用能力有没有长进模型里”。