ReFineVLA: Multimodal Reasoning-Aware Generalist Robotic Policies via Teacher-Guided Fine-Tuning

一眼看懂封面预览

研究目标：解决视觉语言动作（VLA）模型缺乏显式多模态推理能力的问题，提升其在复杂、长程机器人操作任务中的泛化能力和可解释性

Card 01 研究单位

研究单位

VinRobotics, Hanoi, Vietnam（主要研究机构）
University of Texas at Arlington, Texas, USA
Max Planck Research School for Intelligent Systems (IMPRS-IS), Stuttgart, Germany
Intelligent Autonomous Systems Lab, TU Darmstadt, Darmstadt, Germany
Automation & Control Institute, TU Wien, Austria
Austrian Institute of Technology (AIT), Vienna, Austria
Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), UAE

Card 02 论文概述

Card 03 核心贡献

方法创新：提出基于迁移的微调框架，通过教师模型生成的自然语言推理理由（chain-of-thought监督）将显式多模态推理注入预训练VLA
数据集构建：构建了包含125,000条带多模态推理标注的机器人轨迹数据集，使用Gemini作为专家教师生成步骤化推理标注
高效适配：采用选择性迁移微调（selective transfer fine-tuning），冻结底层参数只微调上层transformer块，保留预训练泛化能力同时降低计算成本
注意力可视化：通过注意力图可视化验证模型在视觉-语言-动作域之间的对齐，证明推理增强后模型关注更语义相关的对象和空间锚点
显著性能提升：在SimplerEnv基准上实现最先进性能，WidowX任务平均成功率47.7%（提升5.0%），Google Robot任务variant aggregation设置达到68.8%（提升3.5%）

Card 04 方法描述

多模态推理标注生成：使用Gemini等大型多模态模型作为教师，为每个观察-动作对生成详细的推理理由，涵盖观察识别、情境分析、空间推理和任务规划四个维度
选择性迁移微调：冻结视觉和语言编码器的底层（负责基础特征提取），只微调上层transformer块和策略头，降低计算成本同时保留预训练泛化能力
多目标学习目标：联合优化动作预测损失和推理生成损失：L_ReFineVLA = L_action + λ_r × L_reasoning，其中L_action通过行为克隆预测动作，L_reasoning通过标准语言建模目标生成推理理由

Card 05 数据集与资源

训练数据集：约125,000条机器人轨迹，来自BridgeData-v2和Google RT1 Robot数据集，经多模态推理标注增强
基础模型：SpatialVLA（3.5B参数），基于PaliGemma 2 VLM backbone，在Open X-Embodiment和RHT20数据集上预训练
评估环境：SimplerEnv，包含137种配置，涵盖Google Robot和WidowX Robot任务，测试视觉匹配和变体聚合两种设置

Card 06 评估与结果

- WidowX基准：ReFineVLA平均成功率47.7%，比第二名SpatialVLA（42.7%）提升5.0%

- Google Robot Visual Matching：76.6%，比SpatialVLA提升2.3%

- Google Robot Variant Aggregation：68.8%，比SpatialVLA提升3.5%

- Move Near任务：95.3%，提升9.6%；Open/Close Drawer变体聚合：34.4%，提升8.2%