返回列表 VLA / Vision-Language-Action 每日论文卡
ReFineVLA: Multimodal Reasoning-Aware Generalist Robotic Policies via Teacher-Guided Fine-Tuning
研究目标:解决视觉语言动作(VLA)模型缺乏显式多模态推理能力的问题,提升其在复杂、长程机器人操作任务中的泛化能力和可解释性

论文详情

ReFineVLA: Multimodal Reasoning-Aware Generalist Robotic Policies via Teacher-Guided Fine-Tuning

2026-04-20 · 原文 · 翻译 · 2604.17800

研究目标:解决视觉语言动作(VLA)模型缺乏显式多模态推理能力的问题,提升其在复杂、长程机器人操作任务中的泛化能力和可解释性 核心问题:传统VLA模型直接从视觉和语言输入映射到动作输出,缺乏逐步推理能力,在分布外场景下表现不佳 研究方法:提出ReFineVLA框架,利用专家教师模型生成自然语言推理理由,通过教师引导的微调将显式多模态推理注入预训练的VLA模型

7 分钟读完 6 张阅读卡 VinRobotics, Hanoi, Vietnam(主要研究机构)
一眼看懂 封面预览

研究目标:解决视觉语言动作(VLA)模型缺乏显式多模态推理能力的问题,提升其在复杂、长程机器人操作任务中的泛化能力和可解释性

  • 研究目标:解决视觉语言动作(VLA)模型缺乏显式多模态推理能力的问题,提升其在复杂、长程机器人操作任务中的泛化能力和可解释性
  • 核心问题:传统VLA模型直接从视觉和语言输入映射到动作输出,缺乏逐步推理能力,在分布外场景下表现不佳
  • 研究方法:提出ReFineVLA框架,利用专家教师模型生成自然语言推理理由,通过教师引导的微调将显式多模态推理注入预训练的VLA模型
Card 01 研究单位

研究单位

  • VinRobotics, Hanoi, Vietnam(主要研究机构)
  • University of Texas at Arlington, Texas, USA
  • Max Planck Research School for Intelligent Systems (IMPRS-IS), Stuttgart, Germany
  • Intelligent Autonomous Systems Lab, TU Darmstadt, Darmstadt, Germany
  • Automation & Control Institute, TU Wien, Austria
  • Austrian Institute of Technology (AIT), Vienna, Austria
  • Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), UAE
Card 02 论文概述

论文概述

  • 研究目标:解决视觉语言动作(VLA)模型缺乏显式多模态推理能力的问题,提升其在复杂、长程机器人操作任务中的泛化能力和可解释性
  • 核心问题:传统VLA模型直接从视觉和语言输入映射到动作输出,缺乏逐步推理能力,在分布外场景下表现不佳
  • 研究方法:提出ReFineVLA框架,利用专家教师模型生成自然语言推理理由,通过教师引导的微调将显式多模态推理注入预训练的VLA模型
Card 03 核心贡献

核心贡献

  • 方法创新:提出基于迁移的微调框架,通过教师模型生成的自然语言推理理由(chain-of-thought监督)将显式多模态推理注入预训练VLA
  • 数据集构建:构建了包含125,000条带多模态推理标注的机器人轨迹数据集,使用Gemini作为专家教师生成步骤化推理标注
  • 高效适配:采用选择性迁移微调(selective transfer fine-tuning),冻结底层参数只微调上层transformer块,保留预训练泛化能力同时降低计算成本
  • 注意力可视化:通过注意力图可视化验证模型在视觉-语言-动作域之间的对齐,证明推理增强后模型关注更语义相关的对象和空间锚点
  • 显著性能提升:在SimplerEnv基准上实现最先进性能,WidowX任务平均成功率47.7%(提升5.0%),Google Robot任务variant aggregation设置达到68.8%(提升3.5%)
Card 04 方法描述

方法描述

  • 多模态推理标注生成:使用Gemini等大型多模态模型作为教师,为每个观察-动作对生成详细的推理理由,涵盖观察识别、情境分析、空间推理和任务规划四个维度
  • 选择性迁移微调:冻结视觉和语言编码器的底层(负责基础特征提取),只微调上层transformer块和策略头,降低计算成本同时保留预训练泛化能力
  • 多目标学习目标:联合优化动作预测损失和推理生成损失:L_ReFineVLA = L_action + λ_r × L_reasoning,其中L_action通过行为克隆预测动作,L_reasoning通过标准语言建模目标生成推理理由
Card 05 数据集与资源

数据集与资源

  • 训练数据集:约125,000条机器人轨迹,来自BridgeData-v2和Google RT1 Robot数据集,经多模态推理标注增强
  • 基础模型:SpatialVLA(3.5B参数),基于PaliGemma 2 VLM backbone,在Open X-Embodiment和RHT20数据集上预训练
  • 评估环境:SimplerEnv,包含137种配置,涵盖Google Robot和WidowX Robot任务,测试视觉匹配和变体聚合两种设置
Card 06 评估与结果

评估与结果

  • 基准测试:SimplerEnv模拟环境,Google Robot和WidowX Robot多种操作任务
  • 主要指标:任务成功率(Success Rate)
  • 关键结果

- WidowX基准:ReFineVLA平均成功率47.7%,比第二名SpatialVLA(42.7%)提升5.0%

- Google Robot Visual Matching:76.6%,比SpatialVLA提升2.3%

- Google Robot Variant Aggregation:68.8%,比SpatialVLA提升3.5%

- Move Near任务:95.3%,提升9.6%;Open/Close Drawer变体聚合:34.4%,提升8.2%