一眼看懂
封面预览
论文研究视觉-语言-动作(VLA)模型的高效推理问题,挑战了现有token剪枝方法过度依赖注意力幅度的假设。
- 论文研究视觉-语言-动作(VLA)模型的高效推理问题,挑战了现有token剪枝方法过度依赖注意力幅度的假设。
- 研究发现高注意力token具有任务依赖性,甚至可能损害策略性能,因此提出了一种动态、无需训练的token剪枝框架。
- 论文旨在解决VLA模型因处理密集视觉token而产生的显著推理延迟问题,同时提升或保持策略性能。
Card 01
研究单位
研究单位
- 复旦大学 (Fudan University)
Card 02
论文概述
论文概述
- 论文研究视觉-语言-动作(VLA)模型的高效推理问题,挑战了现有token剪枝方法过度依赖注意力幅度的假设。
- 研究发现高注意力token具有任务依赖性,甚至可能损害策略性能,因此提出了一种动态、无需训练的token剪枝框架。
- 论文旨在解决VLA模型因处理密集视觉token而产生的显著推理延迟问题,同时提升或保持策略性能。
Card 03
核心贡献
核心贡献
- 揭示了注意力幅度作为token重要性指标的不可靠性,高注意力token有时会引入噪声或错误信号。
- 提出了层间排名一致性作为衡量注意力可靠性的新指标,基于肯德尔τ系数实现。
- 开发了TIES框架,一种轻量级、训练无关的动态token剪枝方法,能够自适应地平衡注意力幅度与排名一致性。
- 在多个VLA架构和基准测试上验证了方法的有效性与泛化能力。
Card 04
方法描述
方法描述
- 核心方法是TIES,一个由肯德尔τ引导的动态token剪枝框架。
- 使用肯德尔τ系数量化高排名token在连续Transformer层间的排名一致性,τ值高表示注意力陷入虚假相关,τ值低表示健康的注意力流动。
- 提出两种选择策略:Hard-TIES基于阈值进行二元选择;Soft-TIES通过线性插值精细控制注意力驱动与多样性保留token的比例。
- 利用视觉时序冗余,仅在检测到显著视觉变化时更新剪枝参数,以降低计算开销。
Card 05
数据集与资源
数据集与资源
- 主要评估基准:SIMPLER (Google Robot和WidowX仿真环境) 和 LIBERO 基准。
- 核心模型架构:CogAct (使用DINOv2+SigLIP视觉编码器、Llama2-7B主干和扩散Transformer解码器)。
- 额外验证模型:OpenVLA 和 OpenVLA-OFT。
- 硬件资源:实验在 NVIDIA A800 GPU上执行。
Card 06
评估与结果
评估与结果
- 主要评估指标为任务成功率。
- 在SIMPLER基准的Visual Matching协议下,TIES (Hard-TIES) 在仅保留56个token时,平均成功率达78.1%,比全token基线提升5.4%。
- 在SIMPLER的Variant Aggregation协议下,TIES (Soft-TIES) 平均成功率为67.6%,显著优于全token基线的59.9%。
- 与FastV、VLA-Cache、EfficientVLA等基线方法相比,TIES在多个任务上均取得了更优或相当的性能。
- 消融实验显示,TIES在激进剪枝下(减少83.6% FLOPs)仍能超越全token基线,证明了其鲁棒性。