论文针对视觉-语言-动作模型在实时部署中存在的动作停顿和反应延迟问题，提出了一种通用的异步推理框架 VLASH。

论文详情

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

2025-11-30 · 原文 · 翻译 · 2512.01031

论文针对视觉-语言-动作模型在实时部署中存在的动作停顿和反应延迟问题，提出了一种通用的异步推理框架 VLASH。该方法通过“未来状态感知”技术，解决了异步推理中预测区间与执行区间的时间错位问题，实现了平滑、精确且快速反应的机器人控制。论文旨在消除同步推理导致的动作停滞，同时避免朴素异步推理带来的控制不稳定和精度下降。

4 分钟读完 6 张阅读卡 MIT

一眼看懂封面预览

论文针对视觉-语言-动作模型在实时部署中存在的动作停顿和反应延迟问题，提出了一种通用的异步推理框架 VLASH。

论文针对视觉-语言-动作模型在实时部署中存在的动作停顿和反应延迟问题，提出了一种通用的异步推理框架 VLASH。
该方法通过“未来状态感知”技术，解决了异步推理中预测区间与执行区间的时间错位问题，实现了平滑、精确且快速反应的机器人控制。
论文旨在消除同步推理导致的动作停滞，同时避免朴素异步推理带来的控制不稳定和精度下降。

Card 01 研究单位

研究单位

MIT
NVIDIA
Tsinghua University
UC Berkeley
UCSD
Caltech

Card 02 论文概述

论文概述

论文针对视觉-语言-动作模型在实时部署中存在的动作停顿和反应延迟问题，提出了一种通用的异步推理框架 VLASH。
该方法通过“未来状态感知”技术，解决了异步推理中预测区间与执行区间的时间错位问题，实现了平滑、精确且快速反应的机器人控制。
论文旨在消除同步推理导致的动作停滞，同时避免朴素异步推理带来的控制不稳定和精度下降。

Card 03 核心贡献

核心贡献

提出了 未来状态感知 机制，通过利用先前生成的动作块前向推演机器人状态，有效弥合了预测与执行之间的时间差。
设计了基于时间偏移和共享观测注意力机制的高效微调策略，无需额外的推理开销即可让模型学会利用未来状态信息。
引入了 动作量化 技术，通过将细粒度的微动作聚合为粗粒度的宏动作，进一步加速机器人的物理运动。
成功展示了 VLASH 使 VLA 模型能够执行如 乒乓球对打 等高动态交互任务，这在同步推理下是无法实现的。

Card 04 方法描述

方法描述

未来状态估计：在推理开始时，利用当前状态和即将执行的动作块计算未来的执行时刻状态，并将其与当前环境观测一起输入模型。
偏移微调：在训练过程中，固定环境观测，随机采样时间偏移量来构造状态-动作对，迫使模型关注机器人状态输入而非仅依赖视觉特征。
共享观测注意力：将一个共享观测与多个偏移分支打包成单一序列，使用块稀疏自注意力掩码，在一次前向传播中完成多分支训练，显著提升了训练效率。

Card 05 数据集与资源

数据集与资源

仿真基准：Kinetix（动态操作任务）、LIBERO（包含 Spatial, Object, Goal, LIBERO-10 四个子集）。
真实机器人：Galaxea R1 Lite 双臂机器人、LeRobot SO-101 6自由度机械臂。
评估模型：$\pi_{0.5}$ 和 SmolVLA-450M。
硬件资源：使用笔记本电脑 RTX 4090 进行推理测试，使用 RTX 5090、RTX 5070 测试延迟，使用 4x H100 GPUs 进行模型微调。

Card 06 评估与结果

评估与结果

仿真评估：在 Kinetix 基准上，相比于朴素异步推理，准确率提升了 30.5%；在 LIBERO 基准上，实现了最高 1.47x 的加速，同时保持了与同步推理相当的精度。
真实世界评估：在抓取放置、堆叠、分类任务中，VLASH 实现了平均 94% 的得分率（高于同步推理的 83%），并达到了最高 2.03x 的加速。
反应速度：相比于同步推理，最大反应延迟降低了 17.4x，成功实现了机器人与人类进行乒乓球对打的高动态交互演示。