Value Vision-Language-Action Planning & Search - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文提出 V-VLAPS（Value Vision-Language-Action Planning and Search）框架，旨在解决 V…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出 V-VLAPS（Value Vision-Language-Action Planning and Search）框架，旨在解决 Vision-Language-Action（VLA）模型在分布偏移下的脆弱性问题
核心方法是将蒙特卡洛树搜索（MCTS）与可学习的价值函数相结合，为搜索提供对未来回报的显式估计，纠正 VLA 先验不准确时的动作选择偏差
在 LIBERO 机器人操作任务套件上评估，验证了价值引导搜索的有效性

Card 03 核心贡献

Card 04 方法描述

数据收集：在 LIBERO 任务上运行预训练的 Octo VLA 策略，收集决策步骤序列 (o_0, c_0, o_1, c_1, ..., o_T)，提取每个状态的潜在 readout 向量 h_t
价值头训练：将 h_t 输入到 3 层 MLP，预测蒙特卡洛价值目标 G_t（成功时为 γ^(T-t)，失败时为 0），使用 MSE 损失训练
价值集成：使用价值估计替代传统的 Q 值，结合 VLA 动作先验和访问次数，探索-利用平衡

Card 05 数据集与资源

Card 06 评估与结果

- Spatial 套件：V-VLAPS 成功率达 87.2%，比 VLAPS 提升 5.2%；MCTS 模拟减少 5%

- Object 套件：V-VLAPS 成功率达 82.6%，比 VLAPS 提升 2.8%；MCTS 模拟减少 14%

- 特别案例：Spatial 任务 9（VLA 完全失败），V-VLAPS 比 VLAPS 提升 31%