Improving Pre-Trained Vision-Language-Action Policies with Model-Based Search

一眼看懂封面预览

论文提出 Vision-Language-Action Planning & Search (VLAPS) 框架，通过将基于模型的搜索嵌入到预…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出 Vision-Language-Action Planning & Search (VLAPS) 框架，通过将基于模型的搜索嵌入到预训练 VLA 策略的推理过程中，提升机器人任务性能
解决预训练 VLA 模型在分布外场景部署时产生的脆弱行为和失败问题，通过显式推理未来行动结果来增强策略的鲁棒性

Card 03 核心贡献

Card 04 方法描述

- 构建有限动作块库 Φ（约 2000 个候选），通过 K-Medoids 聚类从 VLA 成功执行轨迹中提取

- 使用 softmax 分布从 Φ 中采样 k=10 个上下文相关的动作块子集，分布以 VLA 当前输出为中心

Card 05 数据集与资源

数据集：LIBERO 机器人操作任务套件，包含 Libero-Spatial、Libero-Goal、Libero-Object、Libero-90、Libero-10 五个子集
基础 VLA 模型：Octo-base-1.5（93M 参数），在 LIBERO 数据上微调 10k-200k 步
对比模型：π₀-FAST（3.3B 参数），基于 PaliGemma VLM 的 SOTA VLA 模型
计算资源：Nvidia A100 GPU
搜索超参数：300 MCTS 样本/迭代，k=10 子节点扩展，最大搜索深度 100，600 秒任务超时限制

Card 06 评估与结果

- VLAPS 在所有检查点上严格优于 VLA-only 基线，50k 步检查点整体提升 42% 成功率

- 在 Libero-Object 任务上，50k 检查点从 6% 提升至 73%；Libero-Spatial 从 34% 提升至 97%

- 搜索时间自适应分配：基础策略表现差时搜索时间更长（136.3s），表现好时更快（12-19s）

- 93M 参数的 Octo + VLAPS 达到与 3.3B 参数的 π₀-FAST 相当性能（Spatial: 99% vs 96%，Goal: 94% vs 96%）

- 无 VLA 引导的均匀采样搜索在 2000^100 空间上完全不可行，证明 VLA 引导的关键作用