一眼看懂
封面预览
论文针对大型视觉-语言模型(LVLMs)中视觉token冗余问题,提出了一种训练自由的动态剪枝框架AutoPrune,旨在根据输入样本和任务的…
- 论文针对大型视觉-语言模型(LVLMs)中视觉token冗余问题,提出了一种训练自由的动态剪枝框架AutoPrune,旨在根据输入样本和任务的…
- 核心问题在于:现有方法采用固定的层特定剪枝策略,无法适应不同输入的多样化复杂度需求,导致推理效率与性能之间的次优权衡
- 提出认知神经科学启发的分析框架,系统性地将样本/任务复杂度与跨模态注意力中的token保留衰减和层间波动关联起来
Card 01
研究单位
研究单位
- State Key Laboratory of Multimodal Artificial Intelligence Systems (MAIS), CASIA
- School of Artificial Intelligence, University of Chinese Academy of Sciences
- AutoLab, School of Artificial Intelligence, Shanghai Jiao Tong University
- Anyverse Intelligence
- Beijing Key Laboratory of Super Intelligent Security of Multi-Modal Information
- School of Information Science and Technology, ShanghaiTech University
- KargoBot
Card 02
论文概述
论文概述
- 论文针对大型视觉-语言模型(LVLMs)中视觉token冗余问题,提出了一种训练自由的动态剪枝框架AutoPrune,旨在根据输入样本和任务的复杂度自适应地调整剪枝策略
- 核心问题在于:现有方法采用固定的层特定剪枝策略,无法适应不同输入的多样化复杂度需求,导致推理效率与性能之间的次优权衡
Card 03
核心贡献
核心贡献
- 提出认知神经科学启发的分析框架,系统性地将样本/任务复杂度与跨模态注意力中的token保留衰减和层间波动关联起来
- 设计AutoPrune复杂度自适应剪枝框架,通过计算视觉-文本token间的互信息,映射到预算约束的逻辑斯谛保留曲线,为每个样本和任务定制剪枝策略
- 实现无需训练、即插即用的部署方式,严格保证预定义的token数量或FLOPs预算
- 在多个VLM和VLA模型上验证通用性,包括LLaVA-1.5、LLaVA-NeXT和Senna(自动驾驶场景)
Card 04
方法描述
方法描述
- 复杂度量化:利用早期层视觉token与文本token之间的互信息(Mutual Information)作为复杂度指标,高互信息表示简单任务(可直接定位目标),低互信息表示复杂任务(需要广泛探索)
- 逻辑斯谛保留曲线:将互信息映射为预算约束的逻辑斯谛函数,通过调整斜率和拐点参数,实现简单任务的前置激进剪枝(橙色曲线)和复杂任务的保守延迟剪枝(蓝色曲线)
- 预算强制执行:通过解析积分和重归一化,确保曲线下方面积等于用户指定的token数或FLOPs预算,使用二分搜索调整全局缩放因子
- 动态策略:曲线参数(斜率k和拐点x₀)与互信息呈线性关系,实现样本级别的自适应
Card 05
数据集与资源
数据集与资源
- 评估数据集:MME、MMBench、ScienceQA、GQA、TextVQA、VQA²、POPE、nuScenes(自动驾驶)
- 测试模型:LLaVA-1.5-7B、LLaVA-NeXT-7B、Senna(VLA模型)
- 计算资源:单张NVIDIA Tesla A100 GPU
Card 06
评估与结果
评估与结果
- 基准对比:与ToMe、FastV、SparseVLM、PDrop(CVPR'2025)、VisionZip、FasterVLM等训练自由剪枝方法对比
- 关键指标:平均token保留数、任务准确率、性能保留比例(Ratio)、FLOPs占比
- 核心结果:
- LLaVA-1.5-7B上剪枝89%视觉token,FLOPs降低76.8%,仍保持96.7%原始平均准确率,较PDrop提升9.1%
- 中等剪枝(78%移除,128 token)时保持98.1%性能,优于PDrop的95.6%
- LLaVA-NeXT-7B上320 token预算时达到98.2%性能保留,160 token时达94.9%,显著优于FasterVLM的86.7%
- 自动驾驶Senna模型上25% token保留时达到111.23%相对精度,超过原始未剪枝模型