【论文自动阅读】InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation-洪萨配资

🚀 快速了解部分

基础信息（英文）：

题目: InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation
时间年月: 2026年1月
机构名: Shanghai Artificial Intelligence Laboratory (上海人工智能实验室)
3个英文关键词: Vision-Language-Action (VLA), World Models, Robotic Manipulation

1句话通俗总结本文干了什么事情
本文提出了一种名为 InternVLA-A1 的机器人模型，它把“看懂世界”、“想象未来画面”和“执行动作”融合在一个系统里，让机器人不仅能听懂指令，还能预判动作带来的物理变化，从而在动态环境中（比如传送带上）更聪明地完成任务。

研究痛点：现有研究不足 / 要解决的具体问题

核心方法：关键技术、模型或研究设计（简要）

统一架构：采用MoT（Mixture-of-Transformers）架构，包含三个专家模块：理解专家（处理视觉语言）、生成专家（预测未来画面/物理动态）、动作专家（输出控制指令）。
混合数据策略：构建“数据金字塔”，结合大规模开源真实数据（AgiBot-World）和高保真合成数据（InternData-A1），兼顾物理真实性和场景多样性。

🔍 深入了解部分

相比前人创新在哪里

架构创新：不同于以往将“理解”和“预测”割裂的做法，InternVLA-A1 在一个统一的模型中通过掩码自注意力机制，让三个专家模块（理解、生成、动作）顺序协作，实现了语义推理与物理预测的深度融合。
效率与效果平衡：解决了传统视频生成模型推理速度慢的问题，通过优化的生成专家实现了实时（约13Hz）的视觉预演和动作生成。

解决方法/算法的通俗解释
你可以把这个模型想象成一个“会预演的机器人”。

解决方法的具体做法

模型结构：
- 理解专家：基于 InternVL3 或 Qwen3-VL，处理图像和文本。
- 生成专家：使用 VAE（变分自编码器）将图像压缩为潜空间特征，预测未来的潜变量。
- 动作专家：使用Flow Matching（流匹配）算法，将噪声转化为具体的动作序列。
训练流程：
- 预训练：在混合的合成与真实数据上进行大规模预训练。
- 后训练：在特定任务的小规模真实数据上进行微调。

基于前人的哪些方法

实验设置、数据、评估方式

数据集：
- 预训练：InternData-A1（合成数据，63万条轨迹）+ AgiBot-World（真实数据，100万条轨迹）。
- 微调/测试：12个真实世界任务 + RoboTwin 2.0 仿真基准。
硬件：Genie-1, ARX Lift-2, ARX AC One 三种双手机器人。
评估方式：在10个通用任务（如叠衣服、扫地）和2个动态专项任务（快递分拣、动态抓取食材）中进行30次重复测试，计算平均成功率。

提到的同类工作

和本文相关性最高的3个文献
根据文中引用频率和对比实验，相关性最高的三个文献（或工作）是：

π₀ (Pi-0)(Black et al., 2024)：本文最主要的对比基准之一，文中多次提到 InternVLA-A1 在各项任务中超越了 π₀ 的表现。
GR00T N1 / N1.5(Bjorck et al., 2025)：本文最主要的对比基准之一，特别是在人形/通用机器人领域的对标模型。
InternData-A1(Tian et al., 2025b)：本文作者团队之前的工作，是本文模型预训练数据的核心来源，对本文的成功至关重要。

【论文自动阅读】InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation