论文研究视觉-语言-动作(VLA)模型的高效推理问题，挑战了现有token剪枝方法过度依赖注意力幅度的假设。

论文详情

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

2026-03-26 · 原文 · 翻译 · 2603.24941

论文研究视觉-语言-动作(VLA)模型的高效推理问题，挑战了现有token剪枝方法过度依赖注意力幅度的假设。研究发现高注意力token具有任务依赖性，甚至可能损害策略性能，因此提出了一种动态、无需训练的token剪枝框架。论文旨在解决VLA模型因处理密集视觉token而产生的显著推理延迟问题，同时提升或保持策略性能。

4 分钟读完 6 张阅读卡复旦大学 (Fudan University)

一眼看懂封面预览

论文研究视觉-语言-动作(VLA)模型的高效推理问题，挑战了现有token剪枝方法过度依赖注意力幅度的假设。

论文研究视觉-语言-动作(VLA)模型的高效推理问题，挑战了现有token剪枝方法过度依赖注意力幅度的假设。
研究发现高注意力token具有任务依赖性，甚至可能损害策略性能，因此提出了一种动态、无需训练的token剪枝框架。
论文旨在解决VLA模型因处理密集视觉token而产生的显著推理延迟问题，同时提升或保持策略性能。

Card 01 研究单位

研究单位

复旦大学 (Fudan University)

Card 02 论文概述

论文概述

论文研究视觉-语言-动作(VLA)模型的高效推理问题，挑战了现有token剪枝方法过度依赖注意力幅度的假设。
研究发现高注意力token具有任务依赖性，甚至可能损害策略性能，因此提出了一种动态、无需训练的token剪枝框架。
论文旨在解决VLA模型因处理密集视觉token而产生的显著推理延迟问题，同时提升或保持策略性能。

Card 03 核心贡献

核心贡献

揭示了注意力幅度作为token重要性指标的不可靠性，高注意力token有时会引入噪声或错误信号。
提出了层间排名一致性作为衡量注意力可靠性的新指标，基于肯德尔τ系数实现。
开发了TIES框架，一种轻量级、训练无关的动态token剪枝方法，能够自适应地平衡注意力幅度与排名一致性。
在多个VLA架构和基准测试上验证了方法的有效性与泛化能力。

Card 04 方法描述

方法描述

核心方法是TIES，一个由肯德尔τ引导的动态token剪枝框架。
使用肯德尔τ系数量化高排名token在连续Transformer层间的排名一致性，τ值高表示注意力陷入虚假相关，τ值低表示健康的注意力流动。
提出两种选择策略：Hard-TIES基于阈值进行二元选择；Soft-TIES通过线性插值精细控制注意力驱动与多样性保留token的比例。
利用视觉时序冗余，仅在检测到显著视觉变化时更新剪枝参数，以降低计算开销。

Card 05 数据集与资源

数据集与资源

主要评估基准：SIMPLER (Google Robot和WidowX仿真环境) 和 LIBERO 基准。
核心模型架构：CogAct (使用DINOv2+SigLIP视觉编码器、Llama2-7B主干和扩散Transformer解码器)。
额外验证模型：OpenVLA 和 OpenVLA-OFT。
硬件资源：实验在 NVIDIA A800 GPU上执行。

Card 06 评估与结果

评估与结果

主要评估指标为任务成功率。
在SIMPLER基准的Visual Matching协议下，TIES (Hard-TIES) 在仅保留56个token时，平均成功率达78.1%，比全token基线提升5.4%。
在SIMPLER的Variant Aggregation协议下，TIES (Soft-TIES) 平均成功率为67.6%，显著优于全token基线的59.9%。
与FastV、VLA-Cache、EfficientVLA等基线方法相比，TIES在多个任务上均取得了更优或相当的性能。
消融实验显示，TIES在激进剪枝下（减少83.6% FLOPs）仍能超越全token基线，证明了其鲁棒性。