返回列表 VLA / Vision-Language-Action 每日论文卡
Realtime-VLA V2: Learning to Run VLAs Fast, Smooth, and Accurate
论文旨在解决将视觉-语言-动作模型部署到真实机器人任务时,如何实现快速、平滑且准确的执行。

论文详情

Realtime-VLA V2: Learning to Run VLAs Fast, Smooth, and Accurate

2026-03-27 · 原文 · 翻译 · 2603.26360

论文旨在解决将视觉-语言-动作模型部署到真实机器人任务时,如何实现快速、平滑且准确的执行。 研究目标是在不牺牲任务成功率的前提下,使机器人执行速度接近甚至达到人类操作水平。 核心问题是处理“快于示范速度”执行中的动力学错位、硬件约束与延迟,以及如何动态调整速度以最大化吞吐量。

4 分钟读完 6 张阅读卡 作者均隶属于 Dexmal 公司。
一眼看懂 封面预览

论文旨在解决将视觉-语言-动作模型部署到真实机器人任务时,如何实现快速、平滑且准确的执行。

  • 论文旨在解决将视觉-语言-动作模型部署到真实机器人任务时,如何实现快速、平滑且准确的执行。
  • 研究目标是在不牺牲任务成功率的前提下,使机器人执行速度接近甚至达到人类操作水平。
  • 核心问题是处理“快于示范速度”执行中的动力学错位、硬件约束与延迟,以及如何动态调整速度以最大化吞吐量。
Card 01 研究单位

研究单位

  • 作者均隶属于 Dexmal 公司。
Card 02 论文概述

论文概述

  • 论文旨在解决将视觉-语言-动作模型部署到真实机器人任务时,如何实现快速、平滑且准确的执行。
  • 研究目标是在不牺牲任务成功率的前提下,使机器人执行速度接近甚至达到人类操作水平。
  • 核心问题是处理“快于示范速度”执行中的动力学错位、硬件约束与延迟,以及如何动态调整速度以最大化吞吐量。
Card 03 核心贡献

核心贡献

  • 识别了VLA策略在快于示范速度执行中的核心问题,并提出了一个包含校准、规划、控制和学习方法的系统性实现框架。
  • 探索了如何利用人机交互的经验数据,通过学习模型来优化任务吞吐量,实现动态速度自适应。
  • 提供了一个用于分析VLA动作执行速度上限的理论框架,将运动瓶颈和控制瓶颈进行分解。
Card 04 方法描述

方法描述

  • 提出了一个端到端的系统技术栈,包含三大模块:系统校准与补偿轨迹后处理学习何时加速
  • 在校准部分,精确测量并补偿相机、本体感觉传感器和机器人运动动态带来的多种时间延迟(总计约288ms),通过预放大指令来抵消机器人控制器的滞后。
  • 在轨迹后处理部分,构建了包含速度适应模型、时间优化和空间优化的框架。时间优化通过二次规划重新分配时长以平滑加速度;空间优化使用基于模型的预测控制,实时调整指令以确保轨迹跟踪并满足硬件约束。
  • 在学习加速部分,采用“人在回路”的数据收集策略,让人类操作员实时调整“油门”以控制执行速度,从中训练出一个回归模型来预测最优的速度缩放因子。
Card 05 数据集与资源

数据集与资源

  • 使用了三个真实机器人任务进行评估:叠衬衫放置夹具拾取锁定。其中放置夹具任务要求极高的精度(间隙约0.2mm)。
  • 未明确提及模型参数量,但系统采用 acados 框架在SQP-RTI模式下实现实时模型预测控制。
  • 训练推断方面,VLA模型在GPU服务器上运行,机器人客户端板负责控制循环。
Card 06 评估与结果

评估与结果

  • 评估基准是任务执行速度与人类操作速度的对比,并关注轨迹的平滑性(加速度、加加速度分布)和任务成功率。
  • 主要结果是机器人实现了接近人类操作员的执行速度,且运动轨迹平滑无抖动。
  • 轨迹后处理显著降低了加速度和加加速度的峰值,使其均匀分布,证明了方法的有效性。实验视频及推理轨迹文件已在项目主页提供。