news 2026/6/9 22:41:33

【论文自动阅读】VLM4VLA: REVISITING VISION-LANGUAGE-MODELS IN VISION-LANGUAGE-ACTION MODELS

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】VLM4VLA: REVISITING VISION-LANGUAGE-MODELS IN VISION-LANGUAGE-ACTION MODELS

快速了解部分

基础信息(英文)

  1. 题目: VLM4VLA: REVISITING VISION-LANGUAGE-MODELS IN VISION-LANGUAGE-ACTION MODELS
  2. 时间年月: 2025年(根据参考文献推断,文中提及当前时间为2026年,该文为近期研究)
  3. 机构名: Institute for Interdisciplinary Information Sciences, Tsinghua University; Qwen Team, Alibaba Inc.
  4. 3个英文关键词: Vision-Language-Action (VLA); Vision-Language Models (VLM); Embodied AI

1句话通俗总结本文干了什么事情
本文建立了一个标准化的测试框架(VLM4VLA),用来搞清楚什么样的视觉语言大模型(VLM)底座最适合用来做机器人的大脑(VLA),以及为什么现有的VLM在控制机器人时表现不佳。

研究痛点:现有研究不足 / 要解决的具体问题
目前大家虽然都在用预训练的视觉语言模型(VLM)来做机器人动作模型(VLA),但很少有人系统性地研究:到底什么样的VLM底座能力能转化为机器人干活的能力?大家普遍假设VLM越强,机器人越强,但这其实是个误区。

核心方法:关键技术、模型或研究设计(简要)
提出了VLM4VLA管道:设计了一个极简的插件(仅增加<1%的参数),把各种通用的VLM模型转换成能控制机器人的VLA策略模型,从而在公平的条件下对比不同VLM底座的性能。

深入了解部分

相比前人创新在哪里

  1. 公平对比视角:以前的研究往往因为网络结构不同(如Diffusion模型 vs MLP)导致无法公平比较底座的好坏,本文用最简单的MLP头实现了跨架构的公平对比。
  2. 反直觉的发现:打破了“VLM通用能力越强,机器人表现越好”的迷思,发现VLM的视觉编码器是瓶颈,且专门针对具身任务微调VLM(如做视觉问答)并不一定能提高机器人控制性能。

解决方法/算法的通俗解释
想象你要教不同的人(VLM底座)学会看图做家务。

  • 以前的方法:给每个人配不同的复杂教学大纲(复杂的策略网络),导致分不清是人聪明还是大纲好。
  • 本文的方法:给所有人发一本完全一样的、最简单的操作手册(VLM4VLA插件),然后看谁学得快。这个手册只教他们如何把看到的画面和听到的指令翻译成具体的动作坐标。

解决方法的具体做法

  1. 插入动作查询Token:在VLM的输入序列最后加一个可学习的“动作查询标记”(Action Query Token)。
  2. MLP解码:取这个标记对应的输出特征,通过一个简单的两层MLP网络(多层感知机),直接预测机器人的动作(位置和状态)。
  3. 全参数微调:在训练时,不仅微调新加的MLP,也会微调VLM底座的所有参数(包括视觉和语言部分),以测试其真实潜力。

基于前人的哪些方法

  • 基于Vision-Language Models (VLMs)的预训练知识(如Qwen2.5-VL, Paligemma, Kosmos等)。
  • 借鉴了RT-2OpenVLA等将视觉语言模型用于机器人控制的思想,但简化了其复杂的策略头设计。

实验设置、数据、评估方式

  • 模型底座:测试了9种主流VLM(如Qwen系列、Paligemma、Kosmos-2等)。
  • 数据集:使用了3个基准数据集进行训练和评估:CALVIN(模拟桌面操作,测试泛化性)、SimplerEnv Bridge(真实数据训练,模拟环境测试)、Libero-Long(长程复杂任务)。
  • 评估方式:计算任务完成的成功率。对比了从零训练、冻结部分参数微调、全参数微调等多种情况。

提到的同类工作

  • OpenVLA:基于Llama-2的开源VLA模型。
  • pi0:基于Paligemma-1的流模型(Flow Model)。
  • ThinkAct:基于Qwen2.5VL-7B并结合强化学习的模型。
  • RT-2:早期的视觉语言动作模型。

和本文相关性最高的3个文献

  1. OpenVLA (Kim et al., 2024):本文将其作为主要的基准(Baseline)进行对比,且复现了其在部分环境下的结果。
  2. pi0 (Black et al., 2024):本文复现了该模型并与VLM4VLA框架进行对比,指出了其扩散模型带来的不稳定性。
  3. Qwen2.5-VL (Bai et al., 2025b):本文实验中使用的核心VLM底座之一,也是阿里巴巴团队的同系列工作。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 17:16:23

Claude技能+分类器实战:1小时打造智能客服原型

Claude技能分类器实战&#xff1a;1小时打造智能客服原型 引言&#xff1a;为什么你需要这个方案&#xff1f; 作为创业者&#xff0c;你可能经常遇到这样的困境&#xff1a;想验证智能客服的商业可行性&#xff0c;却被复杂的技术栈劝退。传统方案需要分别搭建对话系统、训练…

作者头像 李华
网站建设 2026/5/29 12:35:17

超长上下文+OCR增强|Qwen3-VL-WEBUI在文档处理中的实战应用

超长上下文OCR增强&#xff5c;Qwen3-VL-WEBUI在文档处理中的实战应用 在某跨国企业的法务部门&#xff0c;一份长达800页的并购合同被上传至系统。不到两分钟&#xff0c;AI助手返回了结构化摘要&#xff1a;关键条款、风险点分布、语言不一致项标记&#xff0c;甚至附带了中…

作者头像 李华
网站建设 2026/5/24 9:41:10

Rembg模型安全:防止恶意使用的策略

Rembg模型安全&#xff1a;防止恶意使用的策略 1. 智能万能抠图 - Rembg 在AI图像处理领域&#xff0c;Rembg 已成为“智能去背景”的代名词。其核心基于深度学习显著性检测模型 U-Net&#xff08;U-Squared Net&#xff09;&#xff0c;能够无需标注、自动识别图像中的主体对…

作者头像 李华
网站建设 2026/6/2 11:04:32

如何查找国外的文献

盯着满屏的PDF&#xff0c;眼前的外语字母开始跳舞&#xff0c;脑子里只剩下“我是谁、我在哪、这到底在说什么”的哲学三问&#xff0c;隔壁实验室的师兄已经用AI工具做完了一周的文献调研。 你也许已经发现&#xff0c;打开Google Scholar直接开搜的“原始人”模式&#xff…

作者头像 李华
网站建设 2026/6/5 14:10:55

AI视觉开发指南:MiDaS模型在移动AR中的应用

AI视觉开发指南&#xff1a;MiDaS模型在移动AR中的应用 1. 引言&#xff1a;单目深度估计如何赋能移动AR体验 随着增强现实&#xff08;AR&#xff09;技术的快速发展&#xff0c;真实感的空间交互成为用户体验的核心。传统AR系统依赖双目摄像头或多传感器融合实现深度感知&a…

作者头像 李华
网站建设 2026/6/6 8:20:21

分类模型微调实战:云端GPU 3步完成,小白也能轻松上手

分类模型微调实战&#xff1a;云端GPU 3步完成&#xff0c;小白也能轻松上手 引言 想象一下&#xff0c;你是一家数据标注公司的技术负责人&#xff0c;每天要处理海量的客户数据分类任务。最近有个棘手的问题&#xff1a;客户提供的医疗影像数据敏感度极高&#xff0c;无法上…

作者头像 李华