论文旨在解决将视觉-语言-动作模型部署到真实机器人任务时，如何实现快速、平滑且准确的执行。

论文详情

Realtime-VLA V2: Learning to Run VLAs Fast, Smooth, and Accurate

2026-03-27 · 原文 · 翻译 · 2603.26360

论文旨在解决将视觉-语言-动作模型部署到真实机器人任务时，如何实现快速、平滑且准确的执行。研究目标是在不牺牲任务成功率的前提下，使机器人执行速度接近甚至达到人类操作水平。核心问题是处理“快于示范速度”执行中的动力学错位、硬件约束与延迟，以及如何动态调整速度以最大化吞吐量。

4 分钟读完 6 张阅读卡作者均隶属于 Dexmal 公司。

一眼看懂封面预览

论文旨在解决将视觉-语言-动作模型部署到真实机器人任务时，如何实现快速、平滑且准确的执行。

论文旨在解决将视觉-语言-动作模型部署到真实机器人任务时，如何实现快速、平滑且准确的执行。
研究目标是在不牺牲任务成功率的前提下，使机器人执行速度接近甚至达到人类操作水平。
核心问题是处理“快于示范速度”执行中的动力学错位、硬件约束与延迟，以及如何动态调整速度以最大化吞吐量。

Card 01 研究单位

研究单位

作者均隶属于 Dexmal 公司。

Card 02 论文概述

论文概述

论文旨在解决将视觉-语言-动作模型部署到真实机器人任务时，如何实现快速、平滑且准确的执行。
研究目标是在不牺牲任务成功率的前提下，使机器人执行速度接近甚至达到人类操作水平。
核心问题是处理“快于示范速度”执行中的动力学错位、硬件约束与延迟，以及如何动态调整速度以最大化吞吐量。

Card 03 核心贡献

核心贡献

识别了VLA策略在快于示范速度执行中的核心问题，并提出了一个包含校准、规划、控制和学习方法的系统性实现框架。
探索了如何利用人机交互的经验数据，通过学习模型来优化任务吞吐量，实现动态速度自适应。
提供了一个用于分析VLA动作执行速度上限的理论框架，将运动瓶颈和控制瓶颈进行分解。

Card 04 方法描述

方法描述

提出了一个端到端的系统技术栈，包含三大模块：系统校准与补偿、轨迹后处理、学习何时加速。
在校准部分，精确测量并补偿相机、本体感觉传感器和机器人运动动态带来的多种时间延迟（总计约288ms），通过预放大指令来抵消机器人控制器的滞后。
在轨迹后处理部分，构建了包含速度适应模型、时间优化和空间优化的框架。时间优化通过二次规划重新分配时长以平滑加速度；空间优化使用基于模型的预测控制，实时调整指令以确保轨迹跟踪并满足硬件约束。
在学习加速部分，采用“人在回路”的数据收集策略，让人类操作员实时调整“油门”以控制执行速度，从中训练出一个回归模型来预测最优的速度缩放因子。

Card 05 数据集与资源

数据集与资源

使用了三个真实机器人任务进行评估：叠衬衫、放置夹具、拾取锁定。其中放置夹具任务要求极高的精度（间隙约0.2mm）。
未明确提及模型参数量，但系统采用 acados 框架在SQP-RTI模式下实现实时模型预测控制。
训练推断方面，VLA模型在GPU服务器上运行，机器人客户端板负责控制循环。

Card 06 评估与结果

评估与结果

评估基准是任务执行速度与人类操作速度的对比，并关注轨迹的平滑性（加速度、加加速度分布）和任务成功率。
主要结果是机器人实现了接近人类操作员的执行速度，且运动轨迹平滑无抖动。
轨迹后处理显著降低了加速度和加加速度的峰值，使其均匀分布，证明了方法的有效性。实验视频及推理轨迹文件已在项目主页提供。