返回列表 VLA / Vision-Language-Action 每日论文卡
Running VLAs at Real-time Speed
论文展示了如何在单张消费级 GPU(RTX 4090)上实现 π0-level 多视角 VLA 模型的实时推理,达到 30 FPS 帧率和最高…

论文详情

Running VLAs at Real-time Speed

2025-10-30 · 原文 · 翻译 · 2510.26742

论文展示了如何在单张消费级 GPU(RTX 4090)上实现 π0-level 多视角 VLA 模型的实时推理,达到 30 FPS 帧率和最高 480 Hz 轨迹频率 研究的核心问题是解决大型 VLA 模型在机器人控制中的延迟问题,使动态实时任务(如抓取下落物体)得以实现 通过系统性的工程优化,将推理延迟从 naive torch 的 106.5ms 降低到 27.3ms(双视角),比官方 openpi 实现快近一倍

6 分钟读完 6 张阅读卡 Dexmal(作者:Yunchao Ma, Yunhuan Yang, Tiancai Wang, H…
一眼看懂 封面预览

论文展示了如何在单张消费级 GPU(RTX 4090)上实现 π0-level 多视角 VLA 模型的实时推理,达到 30 FPS 帧率和最高…

  • 论文展示了如何在单张消费级 GPU(RTX 4090)上实现 π0-level 多视角 VLA 模型的实时推理,达到 30 FPS 帧率和最高…
  • 研究的核心问题是解决大型 VLA 模型在机器人控制中的延迟问题,使动态实时任务(如抓取下落物体)得以实现
  • 通过系统性的工程优化,将推理延迟从 naive torch 的 106.5ms 降低到 27.3ms(双视角),比官方 openpi 实现快近…
Card 01 研究单位

研究单位

  • Dexmal(作者:Yunchao Ma, Yunhuan Yang, Tiancai Wang, Haoqiang Fan)
  • StepFun(作者:Yizhuang Zhou)
Card 02 论文概述

论文概述

  • 论文展示了如何在单张消费级 GPU(RTX 4090)上实现 π0-level 多视角 VLA 模型的实时推理,达到 30 FPS 帧率和最高 480 Hz 轨迹频率
  • 研究的核心问题是解决大型 VLA 模型在机器人控制中的延迟问题,使动态实时任务(如抓取下落物体)得以实现
  • 通过系统性的工程优化,将推理延迟从 naive torch 的 106.5ms 降低到 27.3ms(双视角),比官方 openpi 实现快近一倍
Card 03 核心贡献

核心贡献

  • 使用 CUDA Graph 机制消除 CPU 开销,将内核启动开销从约 13ms 降低到 1.72ms
  • 通过计算图简化(层融合、常量折叠、QKV 投影合并)减少冗余计算和内核数量
  • 基于 Triton 的 GEMM tile 参数调优、门控线性层融合、Partial Split-k 等深度内核优化
  • 提出 Full Streaming Inference 框架,实现 30Hz 视觉循环 + 480Hz 力控制循环的双层反馈架构
  • 真实世界验证:在抓取下落笔任务中达到 100% 成功率,端到端反应时间 < 200ms
Card 04 方法描述

方法描述

  • CUDA Graph 消除 CPU 开销:记录并重放内核流,去除 Python 执行开销
  • 计算图简化:将 RMS Norm 仿射参数融合到后续线性层、折叠 Action Time Encoder、合并 QKV 投影矩阵、RoPE 融合
  • 深度内核优化:使用 Triton 自定义 tile 大小、融合门控线性层(FFN 中的 GELU 门控)、Partial Split-k 解决 SM 分布不均、融合标量操作(bias、residual、activation)
  • 建立性能下界:使用 Roofline 模型计算理论下限,同步开销通过软件 barrier 估计,分析表明当前实现已接近最优(剩余优化空间 < 30%)
Card 05 数据集与资源

数据集与资源

  • 模型:π0 模型(基于 PaliGemma 的 VLM + Action Expert)
  • VLM 参数量:3B 参数(SigLIP 400M + Gemma 2.6B)
  • Action Expert 参数量:300M 参数
  • 训练数据:600 个抓取下落笔的演示 episode
  • 硬件:单张 RTX 4090 GPU
  • 图像分辨率:240×320(接近目标 224×224)
Card 06 评估与结果

评估与结果

  • 推理速度(单 RTX 4090):

- 1 view: 20.0ms(vs naive torch 105ms, openpi 43.8ms)

- 2 views: 27.3ms(vs naive torch 106.5ms, openpi 53.7ms)

- 3 views: 36.8ms(vs naive torch 113.9ms, openpi 67.6ms)

  • 性能下界:1 view 13.7ms, 2 views 20.6ms, 3 views 27.6ms(当前实现距最优仅 30%)
  • 同步开销:CUDA Graph 下 1.72ms,软件 barrier 下 0.86ms
  • 真实世界任务:抓取下落笔,100% 成功率,端到端延迟 < 200ms(与人类反应速度相当)
  • Full Streaming 架构:VLM 30Hz + AE 480Hz 可并行运行,总计每秒可处理 30 次 VLM 推理 + 480 次 AE 推理