针对视觉-语言-动作（VLA）模型在长时序任务中推理效率低下的问题，提出一种KV-Efficient VLA方法，通过压缩KV缓存加速推理

论文详情

KV-Efficient VLA: A Method to Speed up Vision Language Models with RNN-Gated Chunked KV Cache

2025-09-20 · 原文 · 翻译 · 2509.21354

针对视觉-语言-动作（VLA）模型在长时序任务中推理效率低下的问题，提出一种KV-Efficient VLA方法，通过压缩KV缓存加速推理现有VLA模型（如OpenVLA 7B）推理速度仅约6 Hz，远低于实时机器人控制所需的50-100 Hz，且KV缓存随序列长度增长导致内存瓶颈核心目标是在不修改下游控制逻辑的前提下，实现模型无关的内存压缩，提升推理速度和降低内存占用

5 分钟读完 6 张阅读卡 University of Toronto（多伦多大学）：Wanshun Xu, Long Zhuang

一眼看懂封面预览

针对视觉-语言-动作（VLA）模型在长时序任务中推理效率低下的问题，提出一种KV-Efficient VLA方法，通过压缩KV缓存加速推理

针对视觉-语言-动作（VLA）模型在长时序任务中推理效率低下的问题，提出一种KV-Efficient VLA方法，通过压缩KV缓存加速推理
现有VLA模型（如OpenVLA 7B）推理速度仅约6 Hz，远低于实时机器人控制所需的50-100 Hz，且KV缓存随序列长度增长导致内存瓶颈
核心目标是在不修改下游控制逻辑的前提下，实现模型无关的内存压缩，提升推理速度和降低内存占用

Card 01 研究单位

研究单位

University of Toronto（多伦多大学）：Wanshun Xu, Long Zhuang
Tsinghua University（清华大学）：Lianlei Shan

Card 02 论文概述

论文概述

针对视觉-语言-动作（VLA）模型在长时序任务中推理效率低下的问题，提出一种KV-Efficient VLA方法，通过压缩KV缓存加速推理
现有VLA模型（如OpenVLA 7B）推理速度仅约6 Hz，远低于实时机器人控制所需的50-100 Hz，且KV缓存随序列长度增长导致内存瓶颈
核心目标是在不修改下游控制逻辑的前提下，实现模型无关的内存压缩，提升推理速度和降低内存占用

Card 03 核心贡献

核心贡献

分块KV缓存策略（Chunked KV Strategy）：将历史KV缓存分割为固定大小的块，通过MLP聚合压缩，减少全序列缓存的存储开销
LSTM门控机制（LSTM Gating Mechanism）：利用LSTM模块评估各聚合块的重要性，动态决定保留或丢弃，实现选择性上下文保留
理论计算效率分析：量化证明该方法在注意力计算中的FLOPs节省和内存压缩比，为长序列推理提供可扩展方案
模型无关的即插即用设计：可无缝集成到OpenVLA、CogACT、HybridVLA等现有VLA架构，无需修改下游控制逻辑

Card 04 方法描述

方法描述

KV缓存分块与聚合：将KV缓存按固定长度C分块，使用2层MLP将每块聚合为单个(K̄, V̄)表示
循环门控选择：LSTM模块处理聚合后的块序列，输出保留分数s_t∈[0,1]，基于可学习阈值τ决定是否保留该块
近期窗口保护：保留最近W个token的原始未压缩形式，确保细粒度信息的完整性
高效注意力计算：注意力仅在未压缩的近期窗口和保留的压缩块上进行，有效序列长度从n降至n'=W+M≪n
微调适配：采用LoRA低秩适配对预训练LLaMA-2 7B进行微调，补偿近似误差

Card 05 数据集与资源

数据集与资源

数据集：Open X-Embodiment（超过50万条演示，涵盖22种机器人本体和500+任务）
仿真环境：RLBench（基于CoppeliaSim，100+任务，约10万条轨迹）
基础模型：LLaMA-2 7B（隐藏维度4096，32层，32注意力头，GQA 8 KV头）
视觉编码器：DINOv2 + SigLIP ViT-Large（224×224分辨率）
训练框架：LLaMA Factory，混合精度训练
硬件资源：2× NVIDIA H800 GPU

Card 06 评估与结果

评估与结果

理论分析：在序列长度n≈20,000时，注意力FLOPs从1.49T降至0.41T，理论加速比1.61×，内存压缩比2.44×
推理速度：OpenVLA-KV-Efficient达7.6 Hz（1.22×），CogACT-KV-Efficient达13.8 Hz（1.33×），HybridVLA-KV-Efficient达8.3 Hz（1.47×），平均加速1.34×
计算效率：平均FLOPs节省24.6%，总FLOPs从2.37-2.73T降至1.81-1.94T
内存效率：KV缓存内存减少1.87×
训练稳定性：损失曲线在前100次迭代下降后稳定收敛，表明与HybridVLA训练动态兼容