Science Robotics：机器人进入下半场，单体智能时代要结束了？-洪萨配资

来源：学术头条

过去两年，机器人基础模型进展迅速。以 RT-2、Gato、Octo 为代表的大规模预训练模型，依托互联网级数据与迁移学习，在感知、决策和控制等环节展现出跨任务泛化能力。行业内也逐渐形成一种主流判断：当模型能够在足够多的任务之间迁移时，就有机会成为通用型机器人智能。

但这一判断存在明显局限。它默认机器人是一个独立、全能的智能体，只在少数时刻接收人类的高层指令，其余时间则单独应对相对静态的环境。

现实场景并非如此。康复机器人需要与患者协同训练，半自动驾驶系统需要与驾驶员实时共享控制权，仓储协作机器人需要与工友协调路径和作业节奏。机器人很少脱离人类单独工作，更多时候，它们处在一个高度耦合、持续变化的人机协作网络之中。

基于这一判断，ETH Zurich团队及其合作者在 Science Robotics 上发表观点文章，提出机器人基础模型需要完成一次从 autonomy（自主）迈向 alliance（同盟）的范式升级。

论文链接：

https://www.science.org/doi/10.1126/scirobotics.aea1822

研究团队提出“生态学”视角：机器人不应只被定义为执行任务的工具，更应被训练为能够在开放、多智能体、持续演化的环境中，与人类及其他机器人共同学习、共同适应的协作伙伴。

为实现这一目标，他们提出了 6 项关键能力建设方向，包括交互先验、伙伴建模、策略模块化、规范适应、信任感知记忆与通信机制。

借助这些能力，机器人能在不同社会角色之间顺畅切换，快速适应陌生协作者，并在家庭、工厂、诊所及现场作业等复杂场景中实现稳定、高效的协同。

为什么？

人类之所以能够与陌生人迅速建立协作，依赖的是在长期社会互动中形成的“社会常识”。我们知道何时让路、何时发声、何时接手主导角色，也能根据对方的反馈即时调整自己的行为。

当前的机器人模型普遍缺乏这类能力。要补上这一短板，仅靠任务训练远远不够，还需要交互学习、伙伴建模、角色灵活切换等一整套算法与系统架构支持。

更重要的是，评价体系也需要同步升级。论文指出，机器人不应只依据“能否独立完成任务”来衡量，还应考察其在人机协作、机机协作团队中的适应能力与鲁棒性。

这意味着评估重心正在发生变化：从单一的工程性能指标，转向面向真实协作场景的社会化能力指标。

如何实现？

研究团队系统梳理了6 项关键能力建设。它们并非彼此孤立，而是相互支撑，共同决定机器人能否在协作中持续学习、快速适应，并在不同任务、不同伙伴、不同社会情境下重新组织已有知识。

图｜6 项关键能力建设

1.交互先验

人在协作时，会天然带入大量长期积累的社会经验。即使面对陌生人，也往往能迅速形成基本配合。机器人如果想达到类似水平，也需要具备交互先验。

这类能力可以通过大规模多智能体数据或仿真环境获得。例如，在真实或合成的多智能体轨迹上训练基础模型，使其隐式掌握常见协作模式。比如，当某个体靠近拾取物体时，其他成员通常会主动让出空间。

一旦模型具备这类先验，机器人在面对陌生伙伴时，就能更快预测对方行为并及时响应。

2.伙伴建模

机器人能否实现跨伙伴迁移，关键在于它是否能够理解“对方正在做什么、准备做什么、相信什么”。在人类认知科学中，这种能力被称为“心智理论”。

研究团队介绍了心智理论的思路：将伙伴目标视作隐变量，通过一小段行为观察窗口，输出一个 embedding 向量。这个向量既能预测伙伴下一步行为，也能帮助机器人调整自身策略。

当这种心智理论风格推理模块嵌入在经过大规模多智能体轨迹预训练的 Transformer 中，模型会自动识别某些行为片段与未来行动之间的统计关系，如频繁变向、频繁切换注视目标等信号，并将其压缩为具有社会意义的表征，例如“探索型或稳健型”“强势型或温和型”。

另一个相关方向是 ad hoc teamwork，也就是要求智能体与从未共同训练过的队友立即协作。近期的 N-Agent Ad hoc Teamwork benchmark 引入动态组队机制，任务过程中队友可能被替换或新增。结果显示，能够实时推断队友 embedding 的策略，恢复团队表现的速度明显更快。

在人机交互场景中，还需要更进一步的能力，也就是推断人类如何看待机器人本身。机器人只有持续建模用户的信念状态，才能判断何时需要主动解释、何时需要澄清误解，从而提升信任感与任务效率。

3.策略模块化与组合性

实现灵活协作的一条重要路径，是把机器人策略拆解为可复用模块，再按场景动态组合。

例如，一个模块负责任务技能，如插销入孔；另一个模块负责交互技能，如跟随伙伴节奏。这样一来，面对新任务或新团队时，机器人只需替换相关模块，无需重新训练整个网络。

Devin 等人的早期研究已经验证了这种思路。他们将神经策略拆分为任务特定模块与机器人特定模块，通过混合组合，系统能够直接适配从未见过的机器人与任务搭配。

这一框架还可以进一步扩展到角色层面，例如分别训练 leader 与 follower 模块，再根据团队分工实时切换。

4.规范适应

机器人如果只是理解动作层面的协作，还远远不够。真正具备同盟能力的系统，还必须理解所处环境中的社会规范。

每个组织、团队或文化环境，都存在大量默认规则。从办公场所礼仪到公共空间行为边界，这些规则往往不会被明确写出，却决定互动是否顺畅。一个服务机器人进入图书馆后仍以正常音量讲话，很可能立刻失去用户接受度。

研究团队以 Social Norm Adaptive Robots 架构为例，说明如何将符号推理与机器学习结合，使机器人识别、遵守并逐步学习不同社会环境中的规范。实践表明，这类显式规范建模有助于提升互动质量与用户信任。

难点在于，规范高度依赖语境，会随群体变化，甚至相互冲突。机器人可能刚适应医院病房规则，下一刻又进入私人家庭环境。因此，它需要具备低成本泛化能力，而不是每换场景就重新训练。

5.信任感知记忆

高效合作离不开信任。人类会在长期互动中记住谁可靠、谁擅长什么、过去合作是否顺利。机器人同样需要类似机制。

这意味着系统需要具备长时记忆与持续学习能力，在反复协作中逐步形成对不同伙伴的认知，包括能力水平、偏好风格与可靠程度，并据此优化未来决策。

研究团队引用了 artificial trust metric 的案例。在康复机器人场景中，当系统判断患者需要帮助时，会主动增强辅助力度并提供引导；当判断患者具备更高自主能力，或希望获得更多控制权时，则主动退后，让患者自行完成动作。

这种信任感知记忆能够记录交互成败、错误模式与反馈信息，并持续更新面向特定伙伴的信任模型，最终影响任务分配、角色安排与协作方式。

6.作为迁移通道的通信

通信是实时协作的核心机制。机器人说出“我负责 A 区域，你负责 B 区域”时，传递的是最小但关键的意图信息，使团队成员无需依赖高成本试探即可完成协调。

围绕合作式 AI，当前研究重点集中在三个问题：传递什么信息、何时传递、如何理解对方信号。研究团队提出两条互补路线：

将自然语言作为共享中介语。只要新成员理解这套语言体系，就能迅速加入团队。大语言模型正在成为重要接口，负责把自由表达解析为结构化意图，再生成简洁、可执行的反馈。
让智能体自主演化专属通信协议。这类协议效率可能更高，但难点在于新加入成员能否快速理解。

与此同时，通信还必须具备透明性与可解释性。机器人不仅要表达决策结果，也要说明理由，包括为什么 / 为什么不的解释，以及经过校准的不确定性信息。这样，伙伴才能及时修正判断、从协作失误中恢复，并动态调整信任水平。

具体实现方式包括：提升动作本身的可读性、根据感知与执行轨迹自动生成语言摘要，以及保存“决策与理由”记录，以支持后续追溯与查询。

如何评估？

范式一旦转变，评测体系也需要同步变化。过去的机器人学习基准，无论是在仿真环境还是真机测试中，大多围绕“固定角色下能否完成任务”展开。但如果目标是衡量机器人在真实社会环境中的泛化能力，这套标准显然不够，需要新的评测框架。

研究团队提出了 4 类关键评测方向：

1.交互泛化测试

过去我们关注机器人能否适应新环境、新物体，未来还要关注它能否适应新的合作对象。举例来说，一台协作机械臂先与某位人类伙伴共同训练，随后再与另一位陌生伙伴执行同一任务。此时考察的，不仅是任务完成率，还包括协作效率、达成共识所需时间，以及沟通误解发生的次数。像 ZSC-Eval 这类工具，已经能够生成多样化的伙伴行为，用于系统评估智能体面对陌生协作者时的适应能力。

2.角色切换压力测试

真实协作中，分工并非一成不变，角色随时可能调整。因此，评测需要模拟任务进行中的职责切换。例如在送货任务里，机器人 A 原本负责决策，机器人 B 负责执行；如果 A 的核心工具突然故障，B 是否能够迅速接管指挥。关键指标包括接手速度、交接过程是否顺畅，以及团队效率是否明显下降。这类测试能够直接检验策略模块能否在运行过程中完成重组。

3.社会鲁棒性与规范适应

安全领域强调系统在异常输入下的鲁棒性，社会协作场景同样需要类似能力。比如，人类队友突然下达与此前指令相冲突的命令，机器人会机械执行，还是主动暂停并进行核对。另一种测试方式，是让机器人在两套不同社交规则的虚拟文化环境中执行同一任务，观察它是否能够根据情境调整行为方式。这类能力决定了机器人能否真正进入复杂、多元的人类社会。

4.人类满意度与团队绩效

协作关系最终是否成立，核心标准仍然是人类是否愿意接受，以及团队整体表现是否提升。因此，评测体系应纳入 human-in-the-loop 实验，让真实用户评价机器人的协作品质，例如“它是否让工作更轻松”“它是否理解并适应你的偏好”。同时结合客观指标，如任务成功率、完成耗时和错误数量。研究团队进一步建议引入综合性的同盟分数，将信任程度、沟通效率与协作流畅度统一纳入评价体系。

还要做什么？

当然，这个想法也并非完美。研究团队坦承，该文章聚焦在同盟感知机器人基础模型的计算与学习维度，这些技术进展虽然必要，但并不充分。要让人-机同盟真正落地，还需要以下多个并行领域的同步推进：

机器人硬件持续创新：更安全、低功耗的驱动器和耐用、响应迅速的传感器，直接决定机器人能否安全可靠地与人共处；
高保真感知：具备密集、大面积触觉感知的机械手，是实现递物、力控等细粒度交互的前提；
具身认知视角：机器人的物理形态和感知-运动能力从根本上塑造它能学什么、能如何协作，这一因素必须与算法改进同步前进；
HRI 设计、安全与伦理框架：更直观的沟通界面、社会化反馈机制，以及确保机器人行为与人类价值和安全标准对齐的伦理约束。

研究团队还表示，规范问题本身也远未解决，规范高度依赖语境、随社群变化、甚至互相冲突，如何让机器人在不经过大规模重新训练的前提下适应全新的规范情境，仍是一个尚待解决的难题。

从自主走向同盟，本质上是在重新定义机器人“学习”与“泛化”的含义：未来的机器人基础模型不再只是精炼技能，而是能在动态的人-机生态中持续适应。当机器人真的能走进新的环境、立即开始与周围的人和机器共同学习，它们就从“工具”变成了“伙伴”。

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是“21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）