一眼看懂
封面预览
论文提出了 SV-VLA (Speculative Verification VLA) 框架,旨在解决视觉语言行动模型在动态环境中的推理效率与…
- 论文提出了 SV-VLA (Speculative Verification VLA) 框架,旨在解决视觉语言行动模型在动态环境中的推理效率与…
- 该框架结合低频开环宏规划与高频轻量级闭环验证,通过重型VLA生成行动序列,用轻量级验证器实时监控执行状态并触发必要时的重规划
- 核心目标是保持行动分块的计算效率优势,同时恢复闭环控制对环境变化的响应能力,避免开环执行中的误差累积
Card 01
研究单位
研究单位
- 东南大学 计算机科学与工程学院
- 东南大学 网络科学与工程学院
- 紫山实验室
- 南洋理工大学
Card 02
论文概述
论文概述
- 论文提出了 SV-VLA (Speculative Verification VLA) 框架,旨在解决视觉语言行动模型在动态环境中的推理效率与控制鲁棒性平衡问题
- 该框架结合低频开环宏规划与高频轻量级闭环验证,通过重型VLA生成行动序列,用轻量级验证器实时监控执行状态并触发必要时的重规划
- 核心目标是保持行动分块的计算效率优势,同时恢复闭环控制对环境变化的响应能力,避免开环执行中的误差累积
Card 03
核心贡献
核心贡献
- 提出了 推测验证框架,将重型VLA用作低频宏规划器生成行动序列,同时引入轻量级验证器进行高频在线验证,实现开环预测与闭环验证的结合
- 设计了 偏差驱动的重规划机制,通过比较计划动作与基于最新观测的参考动作,在偏差超过阈值时触发重规划,兼顾效率与鲁棒性
- 在 LIBERO基准 上验证了方法有效性,将平均成功率从79.5%提升至90.9%,同时保持2.17倍的速度提升
Card 04
方法描述
方法描述
- 采用 开环规划与闭环验证 解耦架构:重型VLA在规划边界生成宏行动序列及规划上下文特征;轻量级验证器在每个控制步骤融合当前观测与规划特征进行验证
- 使用 ViT-Tiny 作为轻量级视觉骨干,将视觉特征与规划特征拼接后通过验证头预测参考动作
- 通过 L1距离 量化计划动作与参考动作的偏差,当偏差超过阈值 τ 时丢弃剩余行动序列并调用重型VLA重规划
- 训练策略为冻结重型VLA参数,仅训练轻量级验证器,使用L1回归损失对齐验证器预测与真实行动
Card 05
数据集与资源
数据集与资源
- 使用 LIBERO基准,包含LIBERO-Goal、LIBERO-Spatial、LIBERO-Object三个任务套件,涵盖目标变化、空间关系和物体类别等不同变化源
- 采用 OpenVLA-OFT 作为重型VLA模型,行动块大小设置为64
- 训练使用 4 NVIDIA A100 GPU,验证在 单 NVIDIA V100 GPU 上进行公平比较
Card 06
评估与结果
评估与结果
- 在 LIBERO模拟器 中进行在线推演实验,评估指标包括任务成功率和推理速度(相对于基线的加速比)
- 主要结果显示:SV-VLA在块大小64时,平均成功率从开环基线的79.5%提升至90.9%,同时保持2.17倍速度提升,相比块大小8的高频闭环基线效率更高
- 相比推测解码方法,SV-VLA在效率与鲁棒性上取得更好平衡,平均成功率达90.9%(推测解码81.7%),速度提升2.17倍(推测解码1.36倍)
- 推理时间分析表明:宏规划调用耗时1.373秒,验证器调用仅0.081秒,SV-VLA将昂贵的宏规划调用从14.5次/ episode降至6.7次/ episode