返回列表 VLA / Vision-Language-Action 每日论文卡
BLURR: A Boosted Low-Resource Inference for Vision-Language-Action Models
提出 BLURR,一个轻量级的 VLA (Vision-Language-Action) 模型推理加速框架,可在无需重新训练的情况下直接应用于…

论文详情

BLURR: A Boosted Low-Resource Inference for Vision-Language-Action Models

2025-12-12 · 原文 · 翻译 · 2512.11769

提出 BLURR,一个轻量级的 VLA (Vision-Language-Action) 模型推理加速框架,可在无需重新训练的情况下直接应用于现有 VLA 控制器 解决 VLA 模型推理延迟过高(超过 30-50 Hz 实时控制需求)的问题,使其能够在消费级 GPU 上实现响应式网页演示和高频机器人控制 通过在 π₀ (Pi-0) 模型上的实例化验证,实现了数量级的推理加速,同时保持原始模型的观测接口和检查点不变

6 分钟读完 6 张阅读卡 University of Notre Dame (圣母大学)
一眼看懂 封面预览

提出 BLURR,一个轻量级的 VLA (Vision-Language-Action) 模型推理加速框架,可在无需重新训练的情况下直接应用于…

  • 提出 BLURR,一个轻量级的 VLA (Vision-Language-Action) 模型推理加速框架,可在无需重新训练的情况下直接应用于…
  • 解决 VLA 模型推理延迟过高(超过 30-50 Hz 实时控制需求)的问题,使其能够在消费级 GPU 上实现响应式网页演示和高频机器人控制
  • 通过在 π₀ (Pi-0) 模型上的实例化验证,实现了数量级的推理加速,同时保持原始模型的观测接口和检查点不变
Card 01 研究单位

研究单位

  • University of Notre Dame (圣母大学)
  • Lehigh University (里海大学)
Card 02 论文概述

论文概述

  • 提出 BLURR,一个轻量级的 VLA (Vision-Language-Action) 模型推理加速框架,可在无需重新训练的情况下直接应用于现有 VLA 控制器
  • 解决 VLA 模型推理延迟过高(超过 30-50 Hz 实时控制需求)的问题,使其能够在消费级 GPU 上实现响应式网页演示和高频机器人控制
  • 通过在 π₀ (Pi-0) 模型上的实例化验证,实现了数量级的推理加速,同时保持原始模型的观测接口和检查点不变
Card 03 核心贡献

核心贡献

  • 无需重新训练或修改模型架构:BLURR 作为推理包装器,可直接应用于现有 OpenVLA、Pi-0、TraceVLA 等检查点,不改变模型参数
  • 多维度推理优化:结合指令前缀 KV 缓存、BF16 混合精度执行、单步控制策略、torch.compile 图编译和 FlashAttention 内核,实现全方位加速
  • 显著的效率提升:在 H100 GPU 上实现 9.5× 延迟降低0.53× 峰值显存占用9.2× 有效 GFLOPS 提升
  • 保持任务性能:在 SimplerEnv 四项操作任务上,平均成功率 (0.71) 与基线相当甚至略优
  • 交互式演示系统:提供实时网页演示,用户可切换控制器并调整推理选项,直观观察速度与精度的权衡
Card 04 方法描述

方法描述

  • 指令前缀 KV 缓存:将语言指令编码为前缀 KV 缓存,每轮只处理一次,后续控制步骤仅注入新的视觉和本体感受 token
  • 单步控制策略:将控制范围从 10 步缩减为 1 步,消除冗余推理,将时间平滑委托给环境和底层控制器
  • BF16 高效解码器:解码器层采用 BF16 执行,减少约 2× 内存带宽需求,充分利用张量核心加速器
  • 图编译优化:使用 torch.compile 包装完整前向传播,实现内核融合并消除 Python 开销
  • FlashAttention 内核:通过 PyTorch SDPA 后端启用融合、IO 感知的注意力内核,显著减少内存 I/O
Card 05 数据集与资源

数据集与资源

  • 数据集/环境SimplerEnv 仿真环境,包含四项桥接操作任务(Carrot-on-plate、Eggplant-in-container、Spoon-on-plate、Stack-blocks)
  • 基础模型π₀ (Pi-0) 预训练检查点,基于 PaliGemma 风格多模态解码器和 SigLIP 视觉编码器
  • 硬件资源:单张 NVIDIA H100 GPU 进行推理评测
  • 输入配置:224×224 RGB 图像,256 token 预算
Card 06 评估与结果

评估与结果

  • 评估基准:SimplerEnv 四项桥接操作任务,每项任务 100 轮闭环评估 episode
  • 主要对比方法:OpenVLA、MiniVLA、Pi-0 baseline、Interleave-Pi-0(基线复现)、BLURR-Pi-0(本文方法)
  • 关键性能指标

- 延迟:从 Interleave-Pi-0 的 162.1 ms 降至 17.1 ms(约 58 Hz 控制频率)

- 显存占用:从 13.61 GB 降至 7.20 GB

- 有效 GFLOPS:从 7,989 提升至 73,525

  • 任务成功率:BLURR-Pi-0 平均成功率 0.71,与 Interleave-Pi-0 (0.70) 和 Pi-0 baseline (0.69) 基本持平,在 Spoon (0.91) 和 Eggplant (0.93) 任务上达到最优