近年来,大型语言模型(Large Language Model, LLM)展现出了强大的自然语言处理能力。
许多研究已将LLM应用于机器人,以实现指令执行任务,例如SayCan、RT-2、VoxPoser等。然而,这些方法需要反复调用LLM来处理外部干扰,这是一个非常耗时的过程。机器人领域的一个活跃研究方向是将LLM与行为树(Behavior Tree, BT)相结合。LLM被用于将用户指令解释为包含任务目标条件的行为树。当外部干扰导致BT中的条件无法达成时,行为树规划器(BT Planner)会基于动作数据库(Action Database),迭代地将未达成的条件扩展为子树,旨在通过执行动作来达成这些条件。尽管这些方法能够以较少的LLM调用次数处理外部干扰,但动作数据库是人工预先构建的。
当应用于超出BT Planner能力范围的新任务时,则需要具备增量学习能力。强化学习需要大量的训练和精心设计的奖励函数;模仿学习需要大量的专家示范数据;无监督学习可能导致结果偏离预期。一种新颖的方法是使用LLM来学习机器人操作。
然而,使用LLM生成的知识存在不确定性,如果直接用于机器人,可能会存在安全隐患。因此,有必要在学习的评估阶段引入人机交互。研究者提出了一种人机交互学习机制。首先为LLM设计了一个上下文,包括提示工程(Prompt Engineering)、操作基元(Manipulation Primitives, MPs)和动作数据库。提示工程用于规范LLM的输出;MPs是一组与机器人底层控制器相关的基本操作;动作数据库为LLM提供演示示例。当用户指示机器人设计新动作时,LLM通过上下文学习生成动作知识。由于LLM的空间几何理解能力较弱,因此在学习机制中引入了人机交互,引导LLM修正和完善这些知识。经过多轮引导和最终用户确认后,将其添加到动作数据库中。生成的动作知识包括前置条件、后置条件和一组MPs,会以BT的形式实施,其中动作由MP实现。此外,BT中的条件可以由BT Planner动态扩展为子树,使机器人能够在任务执行过程中应对外部干扰。为了评估提出的方法,设计了8个涉及对象操作的任务,分为三个难度级别。(1) Easy:需要利用动作数据库中的样本来推理MPs的顺序以完成任务;(2) Medium:除了推理MPs的顺序外,还需要考虑MPs中的关键参数;(3) Hard:除了推理MPs的顺序和关键参数外,还需要考虑待操作对象的特征;
基线方法使用 LLM 基于上下文和动作数据库生成动作知识,但没有人机交互学习,而所提方法最多可以提供3次交互反馈。使用两种 LLM(DeepSeek-V3和 ChatGPT-4o)进行测试。在这 8 项任务中,所提方法的学习性能优于基线方法。通过人机交互修正动作知识,所提方法在这 8 项任务中的成功率超过 80%。为了验证所生成动作知识的适应性,为这8项任务设计了外部干扰。所提方法所获得的动作知识在这8项具有外部干扰任务中的成功率超过70%。
这表明该动作知识具有良好的适应性,且大多数任务失败是由于视觉系统的识别偏差造成的。为了研究所生成动作知识的泛化能力,为这8项任务设计了新的操作对象。生成的动作知识在Stack、PressButton、Upright和Build任务中的成功率超过 70%。这是因为动作知识中的MPs参数适用于新的操作对象。然而,在Insert、BoxOut、OpenDrawer和Unscrew任务中成功率低于 40%。这是因为动作知识中的MPs参数不适用于新的操作对象。如果在将生成的动作知识应用于新的操作对象之前对其进行微调,则可以进一步提高任务的成功率。总的来说,本文提出了一种人机交互学习机制,核心在于生成可直接应用于机器人自适应操作的动作知识,并通过上下文学习实现,无需知识迁移。多项实验结果表明,该方法能够提升机器人的学习性能,使其能够完成任务并应对外部干扰。
IROS 2025论文分享:基于大语言模型与行为树的人机交互学习实现自适应机器人操作
张小明
前端开发工程师
跨越时空的游戏体验:Moonlight TV技术解码与场景革命
当游戏空间不再受限 【免费下载链接】moonlight-tv Lightweight NVIDIA GameStream Client, for LG webOS for Raspberry Pi 项目地址: https://gitcode.com/gh_mirrors/mo/moonlight-tv 你是否曾有过这样的经历:书房电脑里的3A大作画面精美流畅,…
NVIDIA Profile Inspector深度配置指南:解锁显卡隐藏性能参数
NVIDIA Profile Inspector深度配置指南:解锁显卡隐藏性能参数 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector NVIDIA Profile Inspector作为一款专业的显卡驱动参数配置工具,能够…
中小律所智能化转型:用anything-llm管理案件材料与法规
中小律所智能化转型:用 Anything-LLM 管理案件材料与法规 在法律服务日益精细化的今天,中小律师事务所正面临一场静默却深刻的效率危机。律师们每天要处理堆积如山的案卷、快速响应客户咨询、准确引用最新法规,还要在有限人力下完成文书起草和…
游戏加速工具技术深度解析:从卡顿痛点到流畅体验的完整解决方案
在激烈的游戏过程中,你是否经历过关键时刻的卡顿导致操作失误?当角色在复杂场景中移动时,画面是否出现明显的掉帧现象?这些困扰无数玩家的性能瓶颈,正是游戏加速工具需要解决的核心问题。本文将深入剖析开源游戏加速工…
如何快速掌握DownKyi:B站视频下载终极教程
如何快速掌握DownKyi:B站视频下载终极教程 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)。 …
OpenSpeedy开源游戏加速工具:从技术原理到全球应用全景解析
在现代游戏体验中,性能优化已成为玩家关注的焦点。OpenSpeedy作为一款开源免费的Windows游戏加速工具,通过创新的时间函数Hook技术,为全球玩家带来了突破性的帧率提升方案。这款工具不仅技术先进,更以其开放源码的特性赢得了开发者…