一眼看懂
封面预览
论文提出 Vision-Language-Action Planning & Search (VLAPS) 框架,通过将基于模型的搜索嵌入到预…
- 论文提出 Vision-Language-Action Planning & Search (VLAPS) 框架,通过将基于模型的搜索嵌入到预…
- 解决预训练 VLA 模型在分布外场景部署时产生的脆弱行为和失败问题,通过显式推理未来行动结果来增强策略的鲁棒性
- 提出 VLAPS 框架,将蒙特卡洛树搜索(MCTS)与预训练 VLA 策略相结合,利用 VLA 定义的动作先验来偏置搜索过程
Card 01
研究单位
研究单位
- Mila — Quebec AI Institute, Canada
- Université de Montréal, Canada
- The University of British Columbia, Canada
Card 02
论文概述
论文概述
- 论文提出 Vision-Language-Action Planning & Search (VLAPS) 框架,通过将基于模型的搜索嵌入到预训练 VLA 策略的推理过程中,提升机器人任务性能
- 解决预训练 VLA 模型在分布外场景部署时产生的脆弱行为和失败问题,通过显式推理未来行动结果来增强策略的鲁棒性
Card 03
核心贡献
核心贡献
- 提出 VLAPS 框架,将蒙特卡洛树搜索(MCTS)与预训练 VLA 策略相结合,利用 VLA 定义的动作先验来偏置搜索过程
- 开发自动定义任务导向、可处理搜索空间的方法,通过 VLA 采样上下文相关的动作块子集,将搜索空间从不可行的 2000^100 节点缩减到可处理规模
- 设计基于 VLA 的树遍历引导策略,使用 PUCT 选择准则偏置搜索向 VLA 偏好的动作倾斜
- 在 LIBERO 模拟机器人操作任务套件上验证,成功率提升最高达 67 个百分点
- 证明 VLAPS 可将小型 VLA 模型(93M 参数)性能提升至与大型 SOTA 模型(3.3B 参数)相当
Card 04
方法描述
方法描述
- 核心方法:修改版 MCTS 算法,使用 VLA 策略定义动作先验来偏置节点扩展和选择
- 动作空间抽象:搜索在时序抽象的动作块(action chunks)上进行,而非原始动作,每个动作块包含 H=4 步动作序列
- VLA 引导的搜索空间构建:
- 构建有限动作块库 Φ(约 2000 个候选),通过 K-Medoids 聚类从 VLA 成功执行轨迹中提取
- 使用 softmax 分布从 Φ 中采样 k=10 个上下文相关的动作块子集,分布以 VLA 当前输出为中心
- VLA 引导的树遍历:使用 PUCT 选择准则,其中先验概率 ψ 同样基于 VLA 输出定义,平衡探索与利用
- 世界模型:使用环境模拟器(LIBERO 模拟器)进行前向推演和 rollout 评估
Card 05
数据集与资源
数据集与资源
- 数据集:LIBERO 机器人操作任务套件,包含 Libero-Spatial、Libero-Goal、Libero-Object、Libero-90、Libero-10 五个子集
- 基础 VLA 模型:Octo-base-1.5(93M 参数),在 LIBERO 数据上微调 10k-200k 步
- 对比模型:π₀-FAST(3.3B 参数),基于 PaliGemma VLM 的 SOTA VLA 模型
- 计算资源:Nvidia A100 GPU
- 搜索超参数:300 MCTS 样本/迭代,k=10 子节点扩展,最大搜索深度 100,600 秒任务超时限制
Card 06
评估与结果
评估与结果
- 评估基准:LIBERO 五个任务套件,每个套件 10 个不同任务,每个任务 10 个初始条件,共 1000 次评估
- 主要指标:任务成功率(%)、平均算法运行时间(秒)
- 关键结果:
- VLAPS 在所有检查点上严格优于 VLA-only 基线,50k 步检查点整体提升 42% 成功率
- 在 Libero-Object 任务上,50k 检查点从 6% 提升至 73%;Libero-Spatial 从 34% 提升至 97%
- 搜索时间自适应分配:基础策略表现差时搜索时间更长(136.3s),表现好时更快(12-19s)
- 93M 参数的 Octo + VLAPS 达到与 3.3B 参数的 π₀-FAST 相当性能(Spatial: 99% vs 96%,Goal: 94% vs 96%)
- 无 VLA 引导的均匀采样搜索在 2000^100 空间上完全不可行,证明 VLA 引导的关键作用