论文研究 Vision-Language-Action (VLA) 模型在机器人端部署面临的计算约束、成本和能量挑战，目标是实现低成本、实时的…

论文详情

Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

2026-04-27 · 原文 · 翻译 · 2604.24447

论文研究 Vision-Language-Action (VLA) 模型在机器人端部署面临的计算约束、成本和能量挑战，目标是实现低成本、实时的 on-robot 部署。核心问题在于现有评估多依赖桌面级高端 GPU（如 NVIDIA RTX 4090），掩盖了异构边缘加速器（GPUs/XPUs/NPUs）的权衡与机遇。论文通过模型-硬件协同表征，分析 VLA 推理的计算瓶颈，并提出针对性的加速方案。

5 分钟读完 6 张阅读卡作者所属机构为上海交通大学计算机学院

一眼看懂封面预览

论文研究 Vision-Language-Action (VLA) 模型在机器人端部署面临的计算约束、成本和能量挑战，目标是实现低成本、实时的…

论文研究 Vision-Language-Action (VLA) 模型在机器人端部署面临的计算约束、成本和能量挑战，目标是实现低成本、实时的…
核心问题在于现有评估多依赖桌面级高端 GPU（如 NVIDIA RTX 4090），掩盖了异构边缘加速器（GPUs/XPUs/NPUs）的权衡…
论文通过模型-硬件协同表征，分析 VLA 推理的计算瓶颈，并提出针对性的加速方案。

Card 01 研究单位

研究单位

作者所属机构为 上海交通大学 计算机学院

Card 02 论文概述

论文概述

论文研究 Vision-Language-Action (VLA) 模型在机器人端部署面临的计算约束、成本和能量挑战，目标是实现低成本、实时的 on-robot 部署。
核心问题在于现有评估多依赖桌面级高端 GPU（如 NVIDIA RTX 4090），掩盖了异构边缘加速器（GPUs/XPUs/NPUs）的权衡与机遇。
论文通过模型-硬件协同表征，分析 VLA 推理的计算瓶颈，并提出针对性的加速方案。

Card 03 核心贡献

核心贡献

构建跨加速器的 VLA-XPU Leaderboard，基于 CET（Cost, Energy, Time）维度系统评估模型-硬件组合，指导“尺寸合适”的边缘设备选择。
通过深度 profiling 和 Roofline 分析，揭示主流 VLA 推理存在一致的两阶段模式：Compute-bound VLM Backbone 阶段后继以 Memory-bound Action Expert 阶段，导致硬件利用率低下。
提出两项训练无依赖的优化方法：DP-Cache 减少扩散过程冗余，V-AEFusion 实现异步流水线并行，在保持任务成功率的同时实现显著加速。

Card 04 方法描述

方法描述

使用 Roofline 模型 分析和端-to-end profiling（如 NVIDIA Nsight Systems）刻画 VLA 工作负载的计算特性。
创新性地识别出 VLA 推理中 VLM Backbone 为 Compute-bound，而 Action Expert（基于扩散或流匹配）为 Memory-bound，此相位转换导致硬件效率问题。
针对两阶段瓶颈，提出 DP-Cache 缓存扩散步骤中的冗余计算，并提出 V-AEFusion 通过时间相干性将 Action Expert 的早期去噪步骤与 VLM 推理重叠。

Card 05 数据集与资源

数据集与资源

主要使用 LIBERO 机器人学习基准数据集进行模型能力评估。
评估的代表性 VLA 模型包括 OpenVLA、π₀、π₀.5、Diffusion Policy、SmolVLA 等。
测试硬件平台覆盖 NVIDIA GPUs（RTX 4090, Jetson Orin/Thor）、Intel XPU（Arc B60 Pro）及 华为 Ascend NPUs（310B/310P）。

Card 06 评估与结果

评估与结果

在仿真环境（LIBERO）和真实机器人（Franka 机械臂、JAKA S5 双臂机器人）上进行部署验证。
主要评估指标包括：推理延迟（控制频率）、任务成功率（SR）、能量消耗及硬件成本。
关键结果：DP-Cache 在 RTX 4090 上实现 2.9× 加速，在 Ascend 310P 上实现 6× 加速；V-AEFusion 在 RTX 4090 上实现 1.3× 加速，所有优化仅导致任务成功率轻微下降。