news 2026/1/15 13:43:22

【方案了解】Helix: A Vision-Language-Action Model for Generalist Humanoid Control

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【方案了解】Helix: A Vision-Language-Action Model for Generalist Humanoid Control

@[TOC]【方案了解】Helix: A Vision-Language-Action Model for Generalist Humanoid Control

1 项目背景

团队:由机器人初创公司 Figure AI 研发。

提出时间:2025年2月20日(根据官方新闻发布日期)。

2 核心挑战

核心挑战:传统的机器人学习方式(如模仿学习或启发式编程)难以扩展到复杂的家庭环境。家庭场景充满不可预测性(物体种类繁多、形状各异),为每种新行为手动编程或收集数千次演示成本过高。

愿景:Figure AI 旨在打破这一僵局,利用大语言模型(VLM)丰富的语义知识,将其直接转化为机器人动作。使机器人能够通过自然语言指令,对从未见过的物体执行任务,实现“即时泛化”。

3 解决方法

Helix 采用了“系统 1 + 系统 2”(System 1, System 2)的架构设计,平衡了泛化能力与执行速度。

3.1 模型设计

双系统架构:

系统 2 (S2 - 慢思考/决策层):基于一个 7B 参数 的开源预训练 VLM(视觉语言模型)。它以 7-9 Hz 的频率运行,负责理解场景、接收自然语言指令,并将语义信息压缩成一个连续的隐向量(Latent Vector)。

系统 1 (S1 - 快反应/控制层):一个 80M 参数 的交叉注意力编码器-解码器 Transformer。它以 200 Hz 的高频率运行,接收 S2 传来的隐向量,并将其转化为精确的、连续的机器人动作。

全上半身控制:Helix 是首个直接输出 humanoid 全上半身(包括手腕、躯干、头部和 10 根手指)高维动作空间的 VLA 模型。

板载推理:模型运行在机器人内置的双低功耗 GPU 上,实现了商业化的板载部署。

3.2 Loss 设计

标准回归损失(Standard Regression Loss):Helix 采用端到端训练方式。

端到端优化:梯度通过 S1 与 S2 之间的隐向量进行反向传播,从而对整个系统进行联合优化。

辅助任务:在动作空间中增加了一个合成的“任务完成百分比”动作,用于预测任务终止状态。

3.3 数据分布

数据规模:约 500 小时 的高质量、多机器人、多操作员的遥操作数据集。

3.3.1 自动标注

使用 VLM 对视频片段进行“后验指令”自动标注(提问 VLM:“要实现视频中的动作,应该给机器人什么指令?”)。

  • 为什么需要自动标注?
    • 在开发视觉-语言-动作(VLA)模型时,传统的标注方式存在以下痛点:
      • 人工标注昂贵且低效:Helix 使用了 500 小时的遥操作(Teleop)数据。如果依靠人工观看视频并手动输入“把仙人掌放入篮子”等指令,成本极高且容易出错。
      • 语义对齐困难:人类在描述动作时,往往抓不住模型需要的“关键视觉特征”。
      • 指令多样性不足:人工标注往往倾向于简洁,而自动标注可以生成多种表达方式(如“收拾桌子”和“把那个绿色的东西拿走”指代同一动作),增加模型的鲁棒性。
      • 规模化障碍:要实现“通用机器人”,需要海量的数据。只有通过自动化的方式,才能将数千小时的原始视频转化为可供机器学习的“指令-动作”对。
  • 自动标注的输入和输出Helix 利用一个高性能的、离线的 VLM(视觉语言模型) 作为“老师”,对原始数据进行标注:
    • 输入 (Input):原始视频序列:机器人执行某个任务的完整视频(由板载摄像头拍摄)。
    • 后验提示词 (Hindsight Prompts):这是一个精心设计的 Prompt,引导 VLM 观察视频结果。
      • 例如:“观察这段机器人移动物体的视频。如果你是操作员,你会下达什么简短的自然语言指令来触发这个动作?”
    • 输出 (Output):自然语言标签 (Natural Language Labels):与视频内容精确匹配的文本指令(如:“将黑色马克杯移到右侧水槽边缘”)。
  • 核心机制:后验标注 (Hindsight Labeling)这种方法之所以被称为“后验”,是因为它是在动作发生之后去追溯其意图。逻辑反转:传统训练是“指令→\rightarrow动作”,而标注过程是“动作视频→\rightarrow指令”。
  • 消除歧义:在动作开始前,意图往往是模糊的;但在动作结束后,VLM 可以清晰地看到机器人抓住了哪个物体、放在了什么位置,从而给出极度精确的描述。

4 效果

全方位协调:能够以 200Hz 频率协调 35 个自由度(DoF),实现头部追踪手部、躯干调整姿态以扩展触及范围的复杂协同动作。

强大的泛化性(Pick up anything):机器人可以根据自然语言(如“捡起那个沙漠物体”)识别出从未见过的仙人掌玩具并成功抓取。

多机协同:两台运行相同 Helix 模型权重的机器人可以协同完成杂货整理任务,支持自然语言引导下的物体传递。

高效性:仅用以往 VLA 数据集不到 5% 的数据量,就实现了比以往更精细、更高维的控制效果。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/7 20:21:15

全面掌握Whisky:macOS平台Windows程序运行实战指南

全面掌握Whisky:macOS平台Windows程序运行实战指南 【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 在macOS环境中无缝运行Windows程序是许多用户的迫切需求,而…

作者头像 李华
网站建设 2026/1/9 17:33:33

AI视频补帧革命:用SVFI让卡顿视频秒变流畅大片

AI视频补帧革命:用SVFI让卡顿视频秒变流畅大片 【免费下载链接】Squirrel-RIFE 项目地址: https://gitcode.com/gh_mirrors/sq/Squirrel-RIFE 还在为视频播放时的卡顿和画面撕裂而烦恼吗?SVFI视频补帧工具基于先进的RIFE算法,通过AI智…

作者头像 李华
网站建设 2026/1/10 11:02:12

Gephi图可视化探索指南:从数据迷雾到洞察明灯

你是否曾面对密密麻麻的网络数据感到无从下手?那些看似杂乱无章的节点和连线背后,往往隐藏着令人惊喜的规律和价值。今天,让我们一起探索Gephi这款免费开源的图可视化神器,将复杂的数据转化为清晰的洞察。✨ 【免费下载链接】geph…

作者头像 李华
网站建设 2026/1/12 18:50:50

MedSAM:医学图像分割的革命性突破,实现精准病灶识别

MedSAM是一款专业的医学图像分割工具,通过先进的AI技术解决传统分割方法的局限性。在医学影像诊断中,精准的图像分割一直面临组织边界模糊、器官形态复杂等挑战,传统手动分割不仅耗时费力,还存在主观差异性。 【免费下载链接】Med…

作者头像 李华
网站建设 2026/1/11 2:17:13

Windows平台安卓应用安装完整指南:轻松实现跨平台应用体验

Windows平台安卓应用安装完整指南:轻松实现跨平台应用体验 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 想要在Windows电脑上直接安装和使用安卓应用吗&a…

作者头像 李华
网站建设 2026/1/10 3:29:52

终极ESP32温度控制:从零构建智能温控系统

终极ESP32温度控制:从零构建智能温控系统 【免费下载链接】arduino-esp32 Arduino core for the ESP32 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 快速上手:ESP32温度PID控制完全指南 想要打造精准的温度控制系统&#x…

作者头像 李华