返回列表 VLA / Vision-Language-Action 每日论文卡

ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

论文详情

ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

2025-05-28 · 原文 · 翻译 · 2505.21906

提出 ChatVLA-2,一种利用预训练知识实现开放世界具身推理的视觉语言动作(VLA)模型,旨在解决现有 VLA 模型在微调后失去 VLM 原始能力(如数学推理、OCR、空间推理)的问题 核心目标:保留 VLM 的开放世界推理能力,同时将这些能力有效转化为机器人动作执行 设计了两个评估任务:数学匹配游戏(解方程并选取正确答案的卡片)和玩具放置任务(根据空间指令放置玩具),均采用完全分布外的测试场景

6 分钟读完 6 张阅读卡 Midea Group(美的集团)
一眼看懂 封面预览

提出 ChatVLA-2,一种利用预训练知识实现开放世界具身推理的视觉语言动作(VLA)模型,旨在解决现有 VLA 模型在微调后失去 VLM…

  • 提出 ChatVLA-2,一种利用预训练知识实现开放世界具身推理的视觉语言动作(VLA)模型,旨在解决现有 VLA 模型在微调后失去 VLM…
  • 核心目标:保留 VLM 的开放世界推理能力,同时将这些能力有效转化为机器人动作执行
  • 设计了两个评估任务:数学匹配游戏(解方程并选取正确答案的卡片)和玩具放置任务(根据空间指令放置玩具),均采用完全分布外的测试场景
Card 01 研究单位

研究单位

  • Midea Group(美的集团)
  • East China Normal University(华东师范大学)
Card 02 论文概述

论文概述

  • 提出 ChatVLA-2,一种利用预训练知识实现开放世界具身推理的视觉语言动作(VLA)模型,旨在解决现有 VLA 模型在微调后失去 VLM 原始能力(如数学推理、OCR、空间推理)的问题
  • 核心目标:保留 VLM 的开放世界推理能力,同时将这些能力有效转化为机器人动作执行
  • 设计了两个评估任务:数学匹配游戏(解方程并选取正确答案的卡片)和玩具放置任务(根据空间指令放置玩具),均采用完全分布外的测试场景
Card 03 核心贡献

核心贡献

  • 动态专家混合架构(Dynamic MoE):在 VLM 主干上引入动态 MoE 模块,有效解耦多模态理解与机器人控制之间的冲突特征,同时保留共享的预训练知识
  • 两阶段训练策略:第一阶段联合训练图像文本数据和机器人数据,建立预训练知识与机器人动作的连接;第二阶段冻结 VLM 主干,仅训练动作专家,增强推理跟随能力
  • 推理跟随增强模块:将推理 token 注入到动作专家的后半层,使动作输出更紧密地遵循模型内部推理过程
  • 开放世界推理能力:无需针对 OCR、数学推理、空间推理进行显式训练,即可泛化到训练集中从未出现的新任务
  • 显著超越现有方法:在分布外场景下,OCR 准确率达 3.58/4,数学推理准确率达 1.73/2,成功率 82.7%;玩具放置任务成功率 81.4%,相比 DexVLA 提升 3.52 倍
Card 04 方法描述

方法描述

  • 基础模型架构:采用 DexVLA 作为基础,以 Qwen2-VL 作为 VLM 核心,图像编码器将机器人视觉观测映射到语言 token 的嵌入空间
  • 动作专家:使用预训练的 1B ScaleDP 模块作为动作专家,处理动作 token 并生成机器人动作
  • 动态 MoE 设计:共 8 个专家,推理时动态选择 2 个,避免破坏原始 VLM 结构的同时实现任务特定特征与共享特征的有效分离
  • 推理跟随机制:用推理 token 投影替代原始观测 embedding,通过 FiLM 层生成 scale 和 shift 参数,将推理上下文注入到后半层(而非全部层),兼顾推理对齐与动作稳定性
Card 05 数据集与资源

数据集与资源

  • 图像文本数据集:COCO(约 32k)、TextVQA(约 20k)、GQA(约 54k),以及机器人场景图像文本对(约 113k)
  • 机器人数据:数学匹配游戏 600 条轨迹,玩具放置实验 300 条轨迹
  • 模型规模:基于 Qwen2-VL(3B 参数)+ 1B ScaleDP 动作专家
  • 训练资源:混合精度训练(FP16),AdamW 优化器,总训练时长 340 GPU 小时,第一阶段 15k 步,第二阶段 50k 步,学习率 2e-5 → 2e-6(余弦调度)
Card 06 评估与结果

评估与结果

  • 评估环境:真实机器人实验,使用 Franka Emika 机械臂和 ARX-R5 双臂机器人系统
  • 基准方法:Octo、Diffusion Policy、OpenVLA、GR00T N1、DexVLA、ChatVLA、π₀
  • 关键结果

- 数学匹配游戏(开放世界):OCR 3.58/4,数学推理 1.73/2,成功率 82.7%(43/52),其他方法均接近零

- 玩具放置(开放世界):对象识别 0.94,空间 Affordance 0.88,成功率 81.4%(127/156),DexVLA 仅为 23%

  • 消融实验:动态 MoE 优于静态/共享 MoE 和Dense模型;两阶段训练缺一不可;推理注入后半层效果最佳