返回列表 VLA / Vision-Language-Action 每日论文卡
VLA-Reasoner: Empowering Vision-Language-Action Models with Reasoning via Online Monte Carlo Tree Search
VLA-Reasoner 是一个即插即用的框架,通过在线蒙特卡洛树搜索(MCTS)增强视觉语言动作模型(VLA)的推理能力,解决VLA在长程轨…

论文详情

VLA-Reasoner: Empowering Vision-Language-Action Models with Reasoning via Online Monte Carlo Tree Search

2025-09-26 · 原文 · 翻译 · 2509.22643

VLA-Reasoner 是一个即插即用的框架,通过在线蒙特卡洛树搜索(MCTS)增强视觉语言动作模型(VLA)的推理能力,解决VLA在长程轨迹任务中因短视预测导致的累积偏差问题 核心思想是利用世界模型模拟未来状态,结合MCTS在动作空间中进行高效搜索,通过离线价值估计评估中间状态,提供密集的反馈信号来纠正偏差 该方法可在测试时扩展计算,无需大规模后训练即可显著提升现有VLA的性能

5 分钟读完 6 张阅读卡 南洋理工大学 (Nanyang Technological University) - 电气与电子工程…
一眼看懂 封面预览

VLA-Reasoner 是一个即插即用的框架,通过在线蒙特卡洛树搜索(MCTS)增强视觉语言动作模型(VLA)的推理能力,解决VLA在长程轨…

  • VLA-Reasoner 是一个即插即用的框架,通过在线蒙特卡洛树搜索(MCTS)增强视觉语言动作模型(VLA)的推理能力,解决VLA在长程轨…
  • 核心思想是利用世界模型模拟未来状态,结合MCTS在动作空间中进行高效搜索,通过离线价值估计评估中间状态,提供密集的反馈信号来纠正偏差
  • 该方法可在测试时扩展计算,无需大规模后训练即可显著提升现有VLA的性能
Card 01 研究单位

研究单位

  • 南洋理工大学 (Nanyang Technological University) - 电气与电子工程学院
  • 清华大学 (Tsinghua University) - 深圳国际研究生院
  • 北京邮电大学 (Beijing University of Posts and Telecommunications) - 智能工程与自动化学院
Card 02 论文概述

论文概述

  • VLA-Reasoner 是一个即插即用的框架,通过在线蒙特卡洛树搜索(MCTS)增强视觉语言动作模型(VLA)的推理能力,解决VLA在长程轨迹任务中因短视预测导致的累积偏差问题
  • 核心思想是利用世界模型模拟未来状态,结合MCTS在动作空间中进行高效搜索,通过离线价值估计评估中间状态,提供密集的反馈信号来纠正偏差
  • 该方法可在测试时扩展计算,无需大规模后训练即可显著提升现有VLA的性能
Card 03 核心贡献

核心贡献

  • 提出VLA-Reasoner插件框架,赋予VLA结构化推理能力,解决部署时的累积偏差问题
  • 将修改后的MCTS应用于测试时推理,使用KDE进行高效采样,并设计基于离线数据的价值估计方法评估中间状态
  • 在模拟环境和真实机器人上进行了广泛实验,验证了方法的有效性,在LIBERO基准上超越OpenVLA-SFT等先进VLA模型
Card 04 方法描述

方法描述

  • 在线蒙特卡洛树搜索(MCTS):通过展开、模拟、反向传播和选择四个步骤,在动作空间中构建搜索树,利用VLA预测作为根节点
  • 基于KDE的高效采样:使用核密度估计(KDE)从离线数据中学习动作分布,在MCTS扩展阶段高效采样候选动作,避免重复查询VLA
  • 视觉价值估计:采用ResNet-34作为视觉编码器,通过2层MLP训练MSE损失,对MCTS中的中间状态进行价值评估
  • 动作注入机制:将MCTS搜索得到的最优动作与VLA预测通过加权融合(公式:$a_t = \alpha \cdot a_t^{VLA} + (1-\alpha) \cdot a_t^{Reasoner}$)生成最终执行动作
Card 05 数据集与资源

数据集与资源

  • 模拟环境:LIBERO基准(包含Spatial、Goal、Object、Long四个任务套件)和SimplerEnv
  • 真实机器人任务:5个真实世界任务(Block、Fruit、1 Cup、2 Cups、Circle)
  • 基础VLA模型:OpenVLA-7B、Octo-Small (27M参数)、SpatialVLA-4B
  • 世界模型:基于iVideoGPT架构训练的动作感知世界模型(600M参数)
  • 训练资源:6块NVIDIA RTX 6000 GPU
Card 06 评估与结果

评估与结果

  • 模拟环境(LIBERO):VLA-Reasoner将OpenVLA-SFT平均成功率从76%提升至81%,在Spatial任务上达91.2%,在Long任务上达59.8%
  • 模拟环境(SimplerEnv):将Octo-Small从26.5%提升至37.3%,SpatialVLA从34%提升至41.8%
  • 真实世界:将OpenVLA成功率从22%提升至41%(相对提升86.4%),将π₀-FAST从64%提升至74%(相对提升15.6%)
  • 消融实验:最优注入强度α=0.6,KDE采样和价值估计均对性能提升有显著贡献