一眼看懂
封面预览
提出 ChatVLA-2,一种利用预训练知识实现开放世界具身推理的视觉语言动作(VLA)模型,旨在解决现有 VLA 模型在微调后失去 VLM…
- 提出 ChatVLA-2,一种利用预训练知识实现开放世界具身推理的视觉语言动作(VLA)模型,旨在解决现有 VLA 模型在微调后失去 VLM…
- 核心目标:保留 VLM 的开放世界推理能力,同时将这些能力有效转化为机器人动作执行
- 设计了两个评估任务:数学匹配游戏(解方程并选取正确答案的卡片)和玩具放置任务(根据空间指令放置玩具),均采用完全分布外的测试场景
Card 01
研究单位
研究单位
- Midea Group(美的集团)
- East China Normal University(华东师范大学)
Card 02
论文概述
论文概述
- 提出 ChatVLA-2,一种利用预训练知识实现开放世界具身推理的视觉语言动作(VLA)模型,旨在解决现有 VLA 模型在微调后失去 VLM 原始能力(如数学推理、OCR、空间推理)的问题
- 核心目标:保留 VLM 的开放世界推理能力,同时将这些能力有效转化为机器人动作执行
- 设计了两个评估任务:数学匹配游戏(解方程并选取正确答案的卡片)和玩具放置任务(根据空间指令放置玩具),均采用完全分布外的测试场景
Card 03
核心贡献
核心贡献
- 动态专家混合架构(Dynamic MoE):在 VLM 主干上引入动态 MoE 模块,有效解耦多模态理解与机器人控制之间的冲突特征,同时保留共享的预训练知识
- 两阶段训练策略:第一阶段联合训练图像文本数据和机器人数据,建立预训练知识与机器人动作的连接;第二阶段冻结 VLM 主干,仅训练动作专家,增强推理跟随能力
- 推理跟随增强模块:将推理 token 注入到动作专家的后半层,使动作输出更紧密地遵循模型内部推理过程
- 开放世界推理能力:无需针对 OCR、数学推理、空间推理进行显式训练,即可泛化到训练集中从未出现的新任务
- 显著超越现有方法:在分布外场景下,OCR 准确率达 3.58/4,数学推理准确率达 1.73/2,成功率 82.7%;玩具放置任务成功率 81.4%,相比 DexVLA 提升 3.52 倍
Card 04
方法描述
方法描述
- 基础模型架构:采用 DexVLA 作为基础,以 Qwen2-VL 作为 VLM 核心,图像编码器将机器人视觉观测映射到语言 token 的嵌入空间
- 动作专家:使用预训练的 1B ScaleDP 模块作为动作专家,处理动作 token 并生成机器人动作
- 动态 MoE 设计:共 8 个专家,推理时动态选择 2 个,避免破坏原始 VLM 结构的同时实现任务特定特征与共享特征的有效分离
- 推理跟随机制:用推理 token 投影替代原始观测 embedding,通过 FiLM 层生成 scale 和 shift 参数,将推理上下文注入到后半层(而非全部层),兼顾推理对齐与动作稳定性
Card 05
数据集与资源
数据集与资源
- 图像文本数据集:COCO(约 32k)、TextVQA(约 20k)、GQA(约 54k),以及机器人场景图像文本对(约 113k)
- 机器人数据:数学匹配游戏 600 条轨迹,玩具放置实验 300 条轨迹
- 模型规模:基于 Qwen2-VL(3B 参数)+ 1B ScaleDP 动作专家
- 训练资源:混合精度训练(FP16),AdamW 优化器,总训练时长 340 GPU 小时,第一阶段 15k 步,第二阶段 50k 步,学习率 2e-5 → 2e-6(余弦调度)
Card 06
评估与结果
评估与结果
- 评估环境:真实机器人实验,使用 Franka Emika 机械臂和 ARX-R5 双臂机器人系统
- 基准方法:Octo、Diffusion Policy、OpenVLA、GR00T N1、DexVLA、ChatVLA、π₀
- 关键结果:
- 数学匹配游戏(开放世界):OCR 3.58/4,数学推理 1.73/2,成功率 82.7%(43/52),其他方法均接近零
- 玩具放置(开放世界):对象识别 0.94,空间 Affordance 0.88,成功率 81.4%(127/156),DexVLA 仅为 23%
- 消融实验:动态 MoE 优于静态/共享 MoE 和Dense模型;两阶段训练缺一不可;推理注入后半层效果最佳