一眼看懂
封面预览
研究目标:解决视觉语言动作(VLA)模型缺乏显式多模态推理能力的问题,提升其在复杂、长程机器人操作任务中的泛化能力和可解释性
- 研究目标:解决视觉语言动作(VLA)模型缺乏显式多模态推理能力的问题,提升其在复杂、长程机器人操作任务中的泛化能力和可解释性
- 核心问题:传统VLA模型直接从视觉和语言输入映射到动作输出,缺乏逐步推理能力,在分布外场景下表现不佳
- 研究方法:提出ReFineVLA框架,利用专家教师模型生成自然语言推理理由,通过教师引导的微调将显式多模态推理注入预训练的VLA模型
Card 01
研究单位
研究单位
- VinRobotics, Hanoi, Vietnam(主要研究机构)
- University of Texas at Arlington, Texas, USA
- Max Planck Research School for Intelligent Systems (IMPRS-IS), Stuttgart, Germany
- Intelligent Autonomous Systems Lab, TU Darmstadt, Darmstadt, Germany
- Automation & Control Institute, TU Wien, Austria
- Austrian Institute of Technology (AIT), Vienna, Austria
- Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), UAE
Card 02
论文概述
论文概述
- 研究目标:解决视觉语言动作(VLA)模型缺乏显式多模态推理能力的问题,提升其在复杂、长程机器人操作任务中的泛化能力和可解释性
- 核心问题:传统VLA模型直接从视觉和语言输入映射到动作输出,缺乏逐步推理能力,在分布外场景下表现不佳
- 研究方法:提出ReFineVLA框架,利用专家教师模型生成自然语言推理理由,通过教师引导的微调将显式多模态推理注入预训练的VLA模型
Card 03
核心贡献
核心贡献
- 方法创新:提出基于迁移的微调框架,通过教师模型生成的自然语言推理理由(chain-of-thought监督)将显式多模态推理注入预训练VLA
- 数据集构建:构建了包含125,000条带多模态推理标注的机器人轨迹数据集,使用Gemini作为专家教师生成步骤化推理标注
- 高效适配:采用选择性迁移微调(selective transfer fine-tuning),冻结底层参数只微调上层transformer块,保留预训练泛化能力同时降低计算成本
- 注意力可视化:通过注意力图可视化验证模型在视觉-语言-动作域之间的对齐,证明推理增强后模型关注更语义相关的对象和空间锚点
- 显著性能提升:在SimplerEnv基准上实现最先进性能,WidowX任务平均成功率47.7%(提升5.0%),Google Robot任务variant aggregation设置达到68.8%(提升3.5%)
Card 04
方法描述
方法描述
- 多模态推理标注生成:使用Gemini等大型多模态模型作为教师,为每个观察-动作对生成详细的推理理由,涵盖观察识别、情境分析、空间推理和任务规划四个维度
- 选择性迁移微调:冻结视觉和语言编码器的底层(负责基础特征提取),只微调上层transformer块和策略头,降低计算成本同时保留预训练泛化能力
- 多目标学习目标:联合优化动作预测损失和推理生成损失:L_ReFineVLA = L_action + λ_r × L_reasoning,其中L_action通过行为克隆预测动作,L_reasoning通过标准语言建模目标生成推理理由
Card 05
数据集与资源
数据集与资源
- 训练数据集:约125,000条机器人轨迹,来自BridgeData-v2和Google RT1 Robot数据集,经多模态推理标注增强
- 基础模型:SpatialVLA(3.5B参数),基于PaliGemma 2 VLM backbone,在Open X-Embodiment和RHT20数据集上预训练
- 评估环境:SimplerEnv,包含137种配置,涵盖Google Robot和WidowX Robot任务,测试视觉匹配和变体聚合两种设置
Card 06
评估与结果
评估与结果
- 基准测试:SimplerEnv模拟环境,Google Robot和WidowX Robot多种操作任务
- 主要指标:任务成功率(Success Rate)
- 关键结果:
- WidowX基准:ReFineVLA平均成功率47.7%,比第二名SpatialVLA(42.7%)提升5.0%
- Google Robot Visual Matching:76.6%,比SpatialVLA提升2.3%
- Google Robot Variant Aggregation:68.8%,比SpatialVLA提升3.5%
- Move Near任务:95.3%,提升9.6%;Open/Close Drawer变体聚合:34.4%,提升8.2%