BLURR: A Boosted Low-Resource Inference for Vision-Language-Action Models

一眼看懂封面预览

提出 BLURR，一个轻量级的 VLA (Vision-Language-Action) 模型推理加速框架，可在无需重新训练的情况下直接应用于…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 BLURR，一个轻量级的 VLA (Vision-Language-Action) 模型推理加速框架，可在无需重新训练的情况下直接应用于现有 VLA 控制器
解决 VLA 模型推理延迟过高（超过 30-50 Hz 实时控制需求）的问题，使其能够在消费级 GPU 上实现响应式网页演示和高频机器人控制
通过在 π₀ (Pi-0) 模型上的实例化验证，实现了数量级的推理加速，同时保持原始模型的观测接口和检查点不变

Card 03 核心贡献

无需重新训练或修改模型架构：BLURR 作为推理包装器，可直接应用于现有 OpenVLA、Pi-0、TraceVLA 等检查点，不改变模型参数
多维度推理优化：结合指令前缀 KV 缓存、BF16 混合精度执行、单步控制策略、torch.compile 图编译和 FlashAttention 内核，实现全方位加速
显著的效率提升：在 H100 GPU 上实现 9.5× 延迟降低、0.53× 峰值显存占用、9.2× 有效 GFLOPS 提升
保持任务性能：在 SimplerEnv 四项操作任务上，平均成功率 (0.71) 与基线相当甚至略优
交互式演示系统：提供实时网页演示，用户可切换控制器并调整推理选项，直观观察速度与精度的权衡

Card 04 方法描述

Card 05 数据集与资源

数据集/环境：SimplerEnv 仿真环境，包含四项桥接操作任务（Carrot-on-plate、Eggplant-in-container、Spoon-on-plate、Stack-blocks）
基础模型：π₀ (Pi-0) 预训练检查点，基于 PaliGemma 风格多模态解码器和 SigLIP 视觉编码器
硬件资源：单张 NVIDIA H100 GPU 进行推理评测
输入配置：224×224 RGB 图像，256 token 预算

Card 06 评估与结果

- 延迟：从 Interleave-Pi-0 的 162.1 ms 降至 17.1 ms（约 58 Hz 控制频率）

- 显存占用：从 13.61 GB 降至 7.20 GB

- 有效 GFLOPS：从 7,989 提升至 73,525

任务成功率：BLURR-Pi-0 平均成功率 0.71，与 Interleave-Pi-0 (0.70) 和 Pi-0 baseline (0.69) 基本持平，在 Spoon (0.91) 和 Eggplant (0.93) 任务上达到最优