FASTER: Value-Guided Sampling for Fast RL - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

研究目标：解决基于扩散策略的强化学习方法在测试时扩展（test-time scaling）时计算成本过高的问题- 核心问题：当前高性能RL算法…

Card 01 研究单位

研究单位

- Perry Dong、Alexander Swerdlow、Dorsa Sadigh、Chelsea Finn

Card 02 论文概述

研究目标：解决基于扩散策略的强化学习方法在测试时扩展（test-time scaling）时计算成本过高的问题- 核心问题：当前高性能RL算法需要对多个动作候选进行采样和去噪选择（如best-of-N），这在计算上非常昂贵，特别是对于大规模VLA模型
解决方案：提出FASTER方法，通过在去噪过程早期过滤动作候选，而非对所有候选完全去噪后再选择，从而获得采样扩展的性能增益而无需承担其计算成本
关键洞察：样本方差在去噪过程早期（尤其是初始噪声）就已确定，可以在完全去噪前预测动作质量

Card 03 核心贡献

Card 04 方法描述

Card 05 数据集与资源

- Robomimic：Lift、Can、Square、Tool Hang四个任务

- LIBERO：libero_90任务的子集

- 预训练VLA模型：pi05_libero（3.3B参数）来自OpenPI

- 扩散策略：标准 actor-critic 架构

- VLA实验：critic 20M参数 vs actor 3.3B参数

- 在线RL设置与批量在线（batch-online）RL设置

- Delta系统（NCSA）进行实验

Card 06 评估与结果

- FASTER-EXPO在在线和批量在线设置中均达到最佳整体性能

- 匹配best-of-N采样的性能，同时大幅降低计算成本

- 推理时间：566ms → 335ms（1.7x加速）

- 训练更新：11.6s → 2.5s（4.5x加速）

- VLA推理FLOPs：3.75×10^13 → 4.70×10^12（8x减少）

- critic规模：Q^{dn}可以比Q^{a}小很多而不影响性能

- 过滤时间步：在不同去噪步骤过滤性能一致，初始噪声过滤效果最佳

- 完整MDP vs单步过滤：性能相当，单步简化是有效的近似