AutoPrune: Each Complexity Deserves a Pruning Policy - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文针对大型视觉-语言模型（LVLMs）中视觉token冗余问题，提出了一种训练自由的动态剪枝框架AutoPrune，旨在根据输入样本和任务的…

Card 01 研究单位

研究单位

State Key Laboratory of Multimodal Artificial Intelligence Systems (MAIS), CASIA
School of Artificial Intelligence, University of Chinese Academy of Sciences
AutoLab, School of Artificial Intelligence, Shanghai Jiao Tong University
Anyverse Intelligence
Beijing Key Laboratory of Super Intelligent Security of Multi-Modal Information
School of Information Science and Technology, ShanghaiTech University
KargoBot

Card 02 论文概述

论文针对大型视觉-语言模型（LVLMs）中视觉token冗余问题，提出了一种训练自由的动态剪枝框架AutoPrune，旨在根据输入样本和任务的复杂度自适应地调整剪枝策略
核心问题在于：现有方法采用固定的层特定剪枝策略，无法适应不同输入的多样化复杂度需求，导致推理效率与性能之间的次优权衡

Card 03 核心贡献

Card 04 方法描述

复杂度量化：利用早期层视觉token与文本token之间的互信息（Mutual Information）作为复杂度指标，高互信息表示简单任务（可直接定位目标），低互信息表示复杂任务（需要广泛探索）
逻辑斯谛保留曲线：将互信息映射为预算约束的逻辑斯谛函数，通过调整斜率和拐点参数，实现简单任务的前置激进剪枝（橙色曲线）和复杂任务的保守延迟剪枝（蓝色曲线）
预算强制执行：通过解析积分和重归一化，确保曲线下方面积等于用户指定的token数或FLOPs预算，使用二分搜索调整全局缩放因子
动态策略：曲线参数（斜率k和拐点x₀）与互信息呈线性关系，实现样本级别的自适应

Card 05 数据集与资源

Card 06 评估与结果

- LLaVA-1.5-7B上剪枝89%视觉token，FLOPs降低76.8%，仍保持96.7%原始平均准确率，较PDrop提升9.1%

- 中等剪枝（78%移除，128 token）时保持98.1%性能，优于PDrop的95.6%

- LLaVA-NeXT-7B上320 token预算时达到98.2%性能保留，160 token时达94.9%，显著优于FasterVLM的86.7%

- 自动驾驶Senna模型上25% token保留时达到111.23%相对精度，超过原始未剪枝模型