ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

论文详情

ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

2025-05-28 · 原文 · 翻译 · 2505.21906

提出 ChatVLA-2，一种利用预训练知识实现开放世界具身推理的视觉语言动作（VLA）模型，旨在解决现有 VLA 模型在微调后失去 VLM 原始能力（如数学推理、OCR、空间推理）的问题核心目标：保留 VLM 的开放世界推理能力，同时将这些能力有效转化为机器人动作执行设计了两个评估任务：数学匹配游戏（解方程并选取正确答案的卡片）和玩具放置任务（根据空间指令放置玩具），均采用完全分布外的测试场景

6 分钟读完 6 张阅读卡 Midea Group（美的集团）

一眼看懂封面预览

提出 ChatVLA-2，一种利用预训练知识实现开放世界具身推理的视觉语言动作（VLA）模型，旨在解决现有 VLA 模型在微调后失去 VLM…

提出 ChatVLA-2，一种利用预训练知识实现开放世界具身推理的视觉语言动作（VLA）模型，旨在解决现有 VLA 模型在微调后失去 VLM…
核心目标：保留 VLM 的开放世界推理能力，同时将这些能力有效转化为机器人动作执行
设计了两个评估任务：数学匹配游戏（解方程并选取正确答案的卡片）和玩具放置任务（根据空间指令放置玩具），均采用完全分布外的测试场景

Card 01 研究单位

研究单位

Midea Group（美的集团）
East China Normal University（华东师范大学）

Card 02 论文概述

论文概述

提出 ChatVLA-2，一种利用预训练知识实现开放世界具身推理的视觉语言动作（VLA）模型，旨在解决现有 VLA 模型在微调后失去 VLM 原始能力（如数学推理、OCR、空间推理）的问题
核心目标：保留 VLM 的开放世界推理能力，同时将这些能力有效转化为机器人动作执行
设计了两个评估任务：数学匹配游戏（解方程并选取正确答案的卡片）和玩具放置任务（根据空间指令放置玩具），均采用完全分布外的测试场景

Card 03 核心贡献

核心贡献

动态专家混合架构（Dynamic MoE）：在 VLM 主干上引入动态 MoE 模块，有效解耦多模态理解与机器人控制之间的冲突特征，同时保留共享的预训练知识
两阶段训练策略：第一阶段联合训练图像文本数据和机器人数据，建立预训练知识与机器人动作的连接；第二阶段冻结 VLM 主干，仅训练动作专家，增强推理跟随能力
推理跟随增强模块：将推理 token 注入到动作专家的后半层，使动作输出更紧密地遵循模型内部推理过程
开放世界推理能力：无需针对 OCR、数学推理、空间推理进行显式训练，即可泛化到训练集中从未出现的新任务
显著超越现有方法：在分布外场景下，OCR 准确率达 3.58/4，数学推理准确率达 1.73/2，成功率 82.7%；玩具放置任务成功率 81.4%，相比 DexVLA 提升 3.52 倍

Card 04 方法描述

方法描述

基础模型架构：采用 DexVLA 作为基础，以 Qwen2-VL 作为 VLM 核心，图像编码器将机器人视觉观测映射到语言 token 的嵌入空间
动作专家：使用预训练的 1B ScaleDP 模块作为动作专家，处理动作 token 并生成机器人动作
动态 MoE 设计：共 8 个专家，推理时动态选择 2 个，避免破坏原始 VLM 结构的同时实现任务特定特征与共享特征的有效分离
推理跟随机制：用推理 token 投影替代原始观测 embedding，通过 FiLM 层生成 scale 和 shift 参数，将推理上下文注入到后半层（而非全部层），兼顾推理对齐与动作稳定性

Card 05 数据集与资源

数据集与资源

图像文本数据集：COCO（约 32k）、TextVQA（约 20k）、GQA（约 54k），以及机器人场景图像文本对（约 113k）
机器人数据：数学匹配游戏 600 条轨迹，玩具放置实验 300 条轨迹
模型规模：基于 Qwen2-VL（3B 参数）+ 1B ScaleDP 动作专家
训练资源：混合精度训练（FP16），AdamW 优化器，总训练时长 340 GPU 小时，第一阶段 15k 步，第二阶段 50k 步，学习率 2e-5 → 2e-6（余弦调度）

Card 06 评估与结果

评估与结果

评估环境：真实机器人实验，使用 Franka Emika 机械臂和 ARX-R5 双臂机器人系统
基准方法：Octo、Diffusion Policy、OpenVLA、GR00T N1、DexVLA、ChatVLA、π₀
关键结果：

- 数学匹配游戏（开放世界）：OCR 3.58/4，数学推理 1.73/2，成功率 82.7%（43/52），其他方法均接近零

- 玩具放置（开放世界）：对象识别 0.94，空间 Affordance 0.88，成功率 81.4%（127/156），DexVLA 仅为 23%

消融实验：动态 MoE 优于静态/共享 MoE 和Dense模型；两阶段训练缺一不可；推理注入后半层效果最佳