返回列表 VLA / Vision-Language-Action 每日论文卡
KV-Efficient VLA: A Method to Speed up Vision Language Models with RNN-Gated Chunked KV Cache
针对视觉-语言-动作(VLA)模型在长时序任务中推理效率低下的问题,提出一种KV-Efficient VLA方法,通过压缩KV缓存加速推理

论文详情

KV-Efficient VLA: A Method to Speed up Vision Language Models with RNN-Gated Chunked KV Cache

2025-09-20 · 原文 · 翻译 · 2509.21354

针对视觉-语言-动作(VLA)模型在长时序任务中推理效率低下的问题,提出一种KV-Efficient VLA方法,通过压缩KV缓存加速推理 现有VLA模型(如OpenVLA 7B)推理速度仅约6 Hz,远低于实时机器人控制所需的50-100 Hz,且KV缓存随序列长度增长导致内存瓶颈 核心目标是在不修改下游控制逻辑的前提下,实现模型无关的内存压缩,提升推理速度和降低内存占用

5 分钟读完 6 张阅读卡 University of Toronto(多伦多大学):Wanshun Xu, Long Zhuang
一眼看懂 封面预览

针对视觉-语言-动作(VLA)模型在长时序任务中推理效率低下的问题,提出一种KV-Efficient VLA方法,通过压缩KV缓存加速推理

  • 针对视觉-语言-动作(VLA)模型在长时序任务中推理效率低下的问题,提出一种KV-Efficient VLA方法,通过压缩KV缓存加速推理
  • 现有VLA模型(如OpenVLA 7B)推理速度仅约6 Hz,远低于实时机器人控制所需的50-100 Hz,且KV缓存随序列长度增长导致内存瓶颈
  • 核心目标是在不修改下游控制逻辑的前提下,实现模型无关的内存压缩,提升推理速度和降低内存占用
Card 01 研究单位

研究单位

  • University of Toronto(多伦多大学):Wanshun Xu, Long Zhuang
  • Tsinghua University(清华大学):Lianlei Shan
Card 02 论文概述

论文概述

  • 针对视觉-语言-动作(VLA)模型在长时序任务中推理效率低下的问题,提出一种KV-Efficient VLA方法,通过压缩KV缓存加速推理
  • 现有VLA模型(如OpenVLA 7B)推理速度仅约6 Hz,远低于实时机器人控制所需的50-100 Hz,且KV缓存随序列长度增长导致内存瓶颈
  • 核心目标是在不修改下游控制逻辑的前提下,实现模型无关的内存压缩,提升推理速度和降低内存占用
Card 03 核心贡献

核心贡献

  • 分块KV缓存策略(Chunked KV Strategy):将历史KV缓存分割为固定大小的块,通过MLP聚合压缩,减少全序列缓存的存储开销
  • LSTM门控机制(LSTM Gating Mechanism):利用LSTM模块评估各聚合块的重要性,动态决定保留或丢弃,实现选择性上下文保留
  • 理论计算效率分析:量化证明该方法在注意力计算中的FLOPs节省和内存压缩比,为长序列推理提供可扩展方案
  • 模型无关的即插即用设计:可无缝集成到OpenVLA、CogACT、HybridVLA等现有VLA架构,无需修改下游控制逻辑
Card 04 方法描述

方法描述

  • KV缓存分块与聚合:将KV缓存按固定长度C分块,使用2层MLP将每块聚合为单个(K̄, V̄)表示
  • 循环门控选择:LSTM模块处理聚合后的块序列,输出保留分数s_t∈[0,1],基于可学习阈值τ决定是否保留该块
  • 近期窗口保护:保留最近W个token的原始未压缩形式,确保细粒度信息的完整性
  • 高效注意力计算:注意力仅在未压缩的近期窗口和保留的压缩块上进行,有效序列长度从n降至n'=W+M≪n
  • 微调适配:采用LoRA低秩适配对预训练LLaMA-2 7B进行微调,补偿近似误差
Card 05 数据集与资源

数据集与资源

  • 数据集Open X-Embodiment(超过50万条演示,涵盖22种机器人本体和500+任务)
  • 仿真环境RLBench(基于CoppeliaSim,100+任务,约10万条轨迹)
  • 基础模型LLaMA-2 7B(隐藏维度4096,32层,32注意力头,GQA 8 KV头)
  • 视觉编码器DINOv2 + SigLIP ViT-Large(224×224分辨率)
  • 训练框架:LLaMA Factory,混合精度训练
  • 硬件资源:2× NVIDIA H800 GPU
Card 06 评估与结果

评估与结果

  • 理论分析:在序列长度n≈20,000时,注意力FLOPs从1.49T降至0.41T,理论加速比1.61×,内存压缩比2.44×
  • 推理速度:OpenVLA-KV-Efficient达7.6 Hz(1.22×),CogACT-KV-Efficient达13.8 Hz(1.33×),HybridVLA-KV-Efficient达8.3 Hz(1.47×),平均加速1.34×
  • 计算效率:平均FLOPs节省24.6%,总FLOPs从2.37-2.73T降至1.81-1.94T
  • 内存效率:KV缓存内存减少1.87×
  • 训练稳定性:损失曲线在前100次迭代下降后稳定收敛,表明与HybridVLA训练动态兼容