返回列表 VLA / Vision-Language-Action 每日论文卡
Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models
论文研究视觉-语言-动作(VLA)模型的高效推理问题,挑战了现有token剪枝方法过度依赖注意力幅度的假设。

论文详情

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

2026-03-26 · 原文 · 翻译 · 2603.24941

论文研究视觉-语言-动作(VLA)模型的高效推理问题,挑战了现有token剪枝方法过度依赖注意力幅度的假设。 研究发现高注意力token具有任务依赖性,甚至可能损害策略性能,因此提出了一种动态、无需训练的token剪枝框架。 论文旨在解决VLA模型因处理密集视觉token而产生的显著推理延迟问题,同时提升或保持策略性能。

4 分钟读完 6 张阅读卡 复旦大学 (Fudan University)
一眼看懂 封面预览

论文研究视觉-语言-动作(VLA)模型的高效推理问题,挑战了现有token剪枝方法过度依赖注意力幅度的假设。

  • 论文研究视觉-语言-动作(VLA)模型的高效推理问题,挑战了现有token剪枝方法过度依赖注意力幅度的假设。
  • 研究发现高注意力token具有任务依赖性,甚至可能损害策略性能,因此提出了一种动态、无需训练的token剪枝框架。
  • 论文旨在解决VLA模型因处理密集视觉token而产生的显著推理延迟问题,同时提升或保持策略性能。
Card 01 研究单位

研究单位

  • 复旦大学 (Fudan University)
Card 02 论文概述

论文概述

  • 论文研究视觉-语言-动作(VLA)模型的高效推理问题,挑战了现有token剪枝方法过度依赖注意力幅度的假设。
  • 研究发现高注意力token具有任务依赖性,甚至可能损害策略性能,因此提出了一种动态、无需训练的token剪枝框架。
  • 论文旨在解决VLA模型因处理密集视觉token而产生的显著推理延迟问题,同时提升或保持策略性能。
Card 03 核心贡献

核心贡献

  • 揭示了注意力幅度作为token重要性指标的不可靠性,高注意力token有时会引入噪声或错误信号。
  • 提出了层间排名一致性作为衡量注意力可靠性的新指标,基于肯德尔τ系数实现。
  • 开发了TIES框架,一种轻量级、训练无关的动态token剪枝方法,能够自适应地平衡注意力幅度与排名一致性。
  • 在多个VLA架构和基准测试上验证了方法的有效性与泛化能力。
Card 04 方法描述

方法描述

  • 核心方法是TIES,一个由肯德尔τ引导的动态token剪枝框架。
  • 使用肯德尔τ系数量化高排名token在连续Transformer层间的排名一致性,τ值高表示注意力陷入虚假相关,τ值低表示健康的注意力流动。
  • 提出两种选择策略:Hard-TIES基于阈值进行二元选择;Soft-TIES通过线性插值精细控制注意力驱动与多样性保留token的比例。
  • 利用视觉时序冗余,仅在检测到显著视觉变化时更新剪枝参数,以降低计算开销。
Card 05 数据集与资源

数据集与资源

  • 主要评估基准:SIMPLER (Google Robot和WidowX仿真环境) 和 LIBERO 基准。
  • 核心模型架构:CogAct (使用DINOv2+SigLIP视觉编码器、Llama2-7B主干和扩散Transformer解码器)。
  • 额外验证模型:OpenVLAOpenVLA-OFT
  • 硬件资源:实验在 NVIDIA A800 GPU上执行。
Card 06 评估与结果

评估与结果

  • 主要评估指标为任务成功率
  • SIMPLER基准的Visual Matching协议下,TIES (Hard-TIES) 在仅保留56个token时,平均成功率达78.1%,比全token基线提升5.4%。
  • 在SIMPLER的Variant Aggregation协议下,TIES (Soft-TIES) 平均成功率为67.6%,显著优于全token基线的59.9%。
  • FastVVLA-CacheEfficientVLA等基线方法相比,TIES在多个任务上均取得了更优或相当的性能。
  • 消融实验显示,TIES在激进剪枝下(减少83.6% FLOPs)仍能超越全token基线,证明了其鲁棒性。