返回列表 VLA / Vision-Language-Action 每日论文卡
VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference
论文针对视觉-语言-动作模型在实时部署中存在的动作停顿和反应延迟问题,提出了一种通用的异步推理框架 VLASH。

论文详情

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

2025-11-30 · 原文 · 翻译 · 2512.01031

论文针对视觉-语言-动作模型在实时部署中存在的动作停顿和反应延迟问题,提出了一种通用的异步推理框架 VLASH。 该方法通过“未来状态感知”技术,解决了异步推理中预测区间与执行区间的时间错位问题,实现了平滑、精确且快速反应的机器人控制。 论文旨在消除同步推理导致的动作停滞,同时避免朴素异步推理带来的控制不稳定和精度下降。

4 分钟读完 6 张阅读卡 MIT
一眼看懂 封面预览

论文针对视觉-语言-动作模型在实时部署中存在的动作停顿和反应延迟问题,提出了一种通用的异步推理框架 VLASH。

  • 论文针对视觉-语言-动作模型在实时部署中存在的动作停顿和反应延迟问题,提出了一种通用的异步推理框架 VLASH。
  • 该方法通过“未来状态感知”技术,解决了异步推理中预测区间与执行区间的时间错位问题,实现了平滑、精确且快速反应的机器人控制。
  • 论文旨在消除同步推理导致的动作停滞,同时避免朴素异步推理带来的控制不稳定和精度下降。
Card 01 研究单位

研究单位

  • MIT
  • NVIDIA
  • Tsinghua University
  • UC Berkeley
  • UCSD
  • Caltech
Card 02 论文概述

论文概述

  • 论文针对视觉-语言-动作模型在实时部署中存在的动作停顿和反应延迟问题,提出了一种通用的异步推理框架 VLASH
  • 该方法通过“未来状态感知”技术,解决了异步推理中预测区间与执行区间的时间错位问题,实现了平滑、精确且快速反应的机器人控制。
  • 论文旨在消除同步推理导致的动作停滞,同时避免朴素异步推理带来的控制不稳定和精度下降。
Card 03 核心贡献

核心贡献

  • 提出了 未来状态感知 机制,通过利用先前生成的动作块前向推演机器人状态,有效弥合了预测与执行之间的时间差。
  • 设计了基于时间偏移和共享观测注意力机制的高效微调策略,无需额外的推理开销即可让模型学会利用未来状态信息。
  • 引入了 动作量化 技术,通过将细粒度的微动作聚合为粗粒度的宏动作,进一步加速机器人的物理运动。
  • 成功展示了 VLASH 使 VLA 模型能够执行如 乒乓球对打 等高动态交互任务,这在同步推理下是无法实现的。
Card 04 方法描述

方法描述

  • 未来状态估计:在推理开始时,利用当前状态和即将执行的动作块计算未来的执行时刻状态,并将其与当前环境观测一起输入模型。
  • 偏移微调:在训练过程中,固定环境观测,随机采样时间偏移量来构造状态-动作对,迫使模型关注机器人状态输入而非仅依赖视觉特征。
  • 共享观测注意力:将一个共享观测与多个偏移分支打包成单一序列,使用块稀疏自注意力掩码,在一次前向传播中完成多分支训练,显著提升了训练效率。
Card 05 数据集与资源

数据集与资源

  • 仿真基准Kinetix(动态操作任务)、LIBERO(包含 Spatial, Object, Goal, LIBERO-10 四个子集)。
  • 真实机器人Galaxea R1 Lite 双臂机器人、LeRobot SO-101 6自由度机械臂。
  • 评估模型$\pi_{0.5}$SmolVLA-450M
  • 硬件资源:使用笔记本电脑 RTX 4090 进行推理测试,使用 RTX 5090RTX 5070 测试延迟,使用 4x H100 GPUs 进行模型微调。
Card 06 评估与结果

评估与结果

  • 仿真评估:在 Kinetix 基准上,相比于朴素异步推理,准确率提升了 30.5%;在 LIBERO 基准上,实现了最高 1.47x 的加速,同时保持了与同步推理相当的精度。
  • 真实世界评估:在抓取放置、堆叠、分类任务中,VLASH 实现了平均 94% 的得分率(高于同步推理的 83%),并达到了最高 2.03x 的加速。
  • 反应速度:相比于同步推理,最大反应延迟降低了 17.4x,成功实现了机器人与人类进行乒乓球对打的高动态交互演示。