VLA-Reasoner 是一个即插即用的框架，通过在线蒙特卡洛树搜索（MCTS）增强视觉语言动作模型（VLA）的推理能力，解决VLA在长程轨…

论文详情

VLA-Reasoner: Empowering Vision-Language-Action Models with Reasoning via Online Monte Carlo Tree Search

2025-09-26 · 原文 · 翻译 · 2509.22643

VLA-Reasoner 是一个即插即用的框架，通过在线蒙特卡洛树搜索（MCTS）增强视觉语言动作模型（VLA）的推理能力，解决VLA在长程轨迹任务中因短视预测导致的累积偏差问题核心思想是利用世界模型模拟未来状态，结合MCTS在动作空间中进行高效搜索，通过离线价值估计评估中间状态，提供密集的反馈信号来纠正偏差该方法可在测试时扩展计算，无需大规模后训练即可显著提升现有VLA的性能

5 分钟读完 6 张阅读卡南洋理工大学 (Nanyang Technological University) - 电气与电子工程…

一眼看懂封面预览

VLA-Reasoner 是一个即插即用的框架，通过在线蒙特卡洛树搜索（MCTS）增强视觉语言动作模型（VLA）的推理能力，解决VLA在长程轨…

VLA-Reasoner 是一个即插即用的框架，通过在线蒙特卡洛树搜索（MCTS）增强视觉语言动作模型（VLA）的推理能力，解决VLA在长程轨…
核心思想是利用世界模型模拟未来状态，结合MCTS在动作空间中进行高效搜索，通过离线价值估计评估中间状态，提供密集的反馈信号来纠正偏差
该方法可在测试时扩展计算，无需大规模后训练即可显著提升现有VLA的性能

Card 01 研究单位

研究单位

南洋理工大学 (Nanyang Technological University) - 电气与电子工程学院
清华大学 (Tsinghua University) - 深圳国际研究生院
北京邮电大学 (Beijing University of Posts and Telecommunications) - 智能工程与自动化学院

Card 02 论文概述

论文概述

VLA-Reasoner 是一个即插即用的框架，通过在线蒙特卡洛树搜索（MCTS）增强视觉语言动作模型（VLA）的推理能力，解决VLA在长程轨迹任务中因短视预测导致的累积偏差问题
核心思想是利用世界模型模拟未来状态，结合MCTS在动作空间中进行高效搜索，通过离线价值估计评估中间状态，提供密集的反馈信号来纠正偏差
该方法可在测试时扩展计算，无需大规模后训练即可显著提升现有VLA的性能

Card 03 核心贡献

核心贡献

提出VLA-Reasoner插件框架，赋予VLA结构化推理能力，解决部署时的累积偏差问题
将修改后的MCTS应用于测试时推理，使用KDE进行高效采样，并设计基于离线数据的价值估计方法评估中间状态
在模拟环境和真实机器人上进行了广泛实验，验证了方法的有效性，在LIBERO基准上超越OpenVLA-SFT等先进VLA模型

Card 04 方法描述

方法描述

在线蒙特卡洛树搜索（MCTS）：通过展开、模拟、反向传播和选择四个步骤，在动作空间中构建搜索树，利用VLA预测作为根节点
基于KDE的高效采样：使用核密度估计（KDE）从离线数据中学习动作分布，在MCTS扩展阶段高效采样候选动作，避免重复查询VLA
视觉价值估计：采用ResNet-34作为视觉编码器，通过2层MLP训练MSE损失，对MCTS中的中间状态进行价值评估
动作注入机制：将MCTS搜索得到的最优动作与VLA预测通过加权融合（公式：$a_t = \alpha \cdot a_t^{VLA} + (1-\alpha) \cdot a_t^{Reasoner}$）生成最终执行动作

Card 05 数据集与资源

数据集与资源

模拟环境：LIBERO基准（包含Spatial、Goal、Object、Long四个任务套件）和SimplerEnv
真实机器人任务：5个真实世界任务（Block、Fruit、1 Cup、2 Cups、Circle）
基础VLA模型：OpenVLA-7B、Octo-Small (27M参数)、SpatialVLA-4B
世界模型：基于iVideoGPT架构训练的动作感知世界模型（600M参数）
训练资源：6块NVIDIA RTX 6000 GPU

Card 06 评估与结果

评估与结果

模拟环境（LIBERO）：VLA-Reasoner将OpenVLA-SFT平均成功率从76%提升至81%，在Spatial任务上达91.2%，在Long任务上达59.8%
模拟环境（SimplerEnv）：将Octo-Small从26.5%提升至37.3%，SpatialVLA从34%提升至41.8%
真实世界：将OpenVLA成功率从22%提升至41%（相对提升86.4%），将π₀-FAST从64%提升至74%（相对提升15.6%）
消融实验：最优注入强度α=0.6，KDE采样和价值估计均对性能提升有显著贡献