news 2026/5/6 20:27:33

某机构发布具身AI智能体代码与数据集

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
某机构发布具身AI智能体代码与数据集

某机构发布用于开发具身AI智能体的代码与数据集

借助Alexa Arena,开发者可以创建模拟任务,让人类与虚拟机器人交互,从而为构建可泛化的AI模型提供自然的方式。

会议
NeurIPS 2023

相关论文
Alexa Arena: A user-centric interactive platform for embodied AI

Alexa Arena是一个全新的具身AI框架,旨在突破人机交互的界限。它提供了一个交互式的、以用户为中心的框架,用于创建涉及多房间模拟环境导航和实时操作各类物体的机器人任务。在类似游戏的设置中,用户可以通过自然语言对话与虚拟机器人交互,帮助机器人完成其任务。该框架目前包含大量多房间布局,涵盖家庭、仓库和实验室场景。

Arena支持具身AI模型的训练与评估,并能基于人机交互生成新的训练数据。因此,它有助于开发具有广泛AI能力的可泛化具身体,例如任务规划、视觉对话、多模态推理、任务完成、可教学AI以及对话理解。已公开发布以下内容:(a) Arena的代码仓库,包含模拟引擎构件以及用于模型训练和视觉推理的机器学习工具箱;(b) 用于训练具身智能体的综合数据集;© 结合视觉与语言规划以完成任务任务的基准机器学习模型。此外,还为Arena推出了新的排行榜,用于评估具身智能体在未见任务上的表现。

Alexa Arena的模拟引擎基于Unity游戏引擎构建,包含330多种资源,既涵盖了家庭中的常见物体(如冰箱、椅子),也包括不常见的物体(如叉车、软盘)。Arena还拥有超过20万个多房间场景,每个场景都具有独特的房间规格和家具布置组合。此外,每个场景可以随机化机器人的初始位置、可移动物体(如电脑、书本)的放置位置、地板材质、墙壁颜色等,以提供丰富的视觉变化,从而通过监督学习和强化学习方法训练具身智能体。

为使游戏更具吸引力,Arena包含实时背景动画和声音、用户友好的图形、平滑的机器人导航及实时视觉显示、支持多视角、可切换第一人称和第三人称摄像机、可纳入任务完成标准的危险和前置条件、显示机器人在场景中位置的小地图,以及可配置的提示生成机制。在环境中执行每个动作后,Arena会生成丰富的元数据,例如来自RGB和深度摄像头的图像、分割图、机器人位置和错误代码。

在Arena中,可以使用新的挑战定义格式来编写长周期机器人任务(例如“泡一杯热茶”),以指定物体的初始状态(如“橱柜门关闭”)、需满足的目标条件(如“杯子装满牛奶或水”),以及放置在场景中特定位置的文本提示(如“检查冰箱里的牛奶”)。

Arena框架为Alexa Prize Simbot挑战赛提供支持,10支大学团队正在竞争开发具身AI智能体,这些智能体在Alexa客户的指导下完成任务。使用Echo Show或Fire TV设备的客户通过语音命令与智能体交互,帮助机器人实现屏幕上显示的目标。挑战赛决赛将于2023年5月初举行。

Arena的代码仓库包含两个数据集:(a) 一个指令跟随数据集,包含46,000条人工标注的对话指令,以及真实动作轨迹和机器人视角图像;(b) 一个视觉数据集,包含来自Arena场景的660,000张图像,涵盖160多个语义物体组,通过将机器人导航到不同的虚拟位置并从不同角度和距离捕获物体图像而收集。

用于创建指令跟随数据集的数据收集方法与在DialFRED早期工作中采用的两步流程类似,即使用演示视频(由符号规划器生成)来创建众包自然语言指令,形式为多轮问答对话。

利用上述数据集,训练了两个具身智能体模型作为Arena任务的基准。一个是神经符号模型,它使用过去动作的上下文历史和专用视觉模型。另一个是具身视觉语言模型,它结合了联合视觉语言编码器和用于任务规划及掩码预测的多头模型。

为评估基准模型,使用了称为任务成功率的指标,即评估集中所有任务中成功完成任务与总任务的比例。

实验中,具身视觉语言模型的任务成功率达到34.20%,比神经符号模型高出14.9个百分点。结果还表明,加入澄清性问答对话通过实现更好的物体实例分割和视觉基础,将具身视觉语言模型的性能提升了11.6%。

Alexa Arena是某机构在人工智能和机器人领域行业领先研究的又一例证。未来几年,Arena框架将成为开发和训练新设备及机器人的关键工具,引领可泛化AI和人机交互的全新时代。

研究领域
机器人技术 | 对话式AI

标签
人机交互 | 数据集开发 | 移动机器人 | Alexa Prize | Alexa | NeurIPSFINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 20:26:35

抖音批量下载工具:三步获取无水印高清视频与完整内容

抖音批量下载工具:三步获取无水印高清视频与完整内容 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppor…

作者头像 李华
网站建设 2026/5/6 20:24:29

5分钟快速上手:用easy-topo绘制专业网络拓扑图的完整指南

5分钟快速上手:用easy-topo绘制专业网络拓扑图的完整指南 【免费下载链接】easy-topo vuesvgelement-ui 快捷画出网络拓扑图 项目地址: https://gitcode.com/gh_mirrors/ea/easy-topo 还在为复杂的网络架构图而烦恼吗?easy-topo来拯救你&#xff…

作者头像 李华
网站建设 2026/5/6 20:21:39

2026年如何集成OpenClaw?京东云萌新全面4分钟部署及接入百炼APIKey教程

2026年如何集成OpenClaw?京东云萌新全面4分钟部署及接入百炼APIKey教程。OpenClaw作为阿里云生态下新一代的开源AI自动化代理平台,曾用名Moltbot/Clawdbot,凭借“自然语言交互自动化任务执行大模型智能决策”的核心能力,正在重构个…

作者头像 李华