返回列表 VLA / Vision-Language-Action 每日论文卡
AutoPrune: Each Complexity Deserves a Pruning Policy
论文针对大型视觉-语言模型(LVLMs)中视觉token冗余问题,提出了一种训练自由的动态剪枝框架AutoPrune,旨在根据输入样本和任务的…

论文详情

AutoPrune: Each Complexity Deserves a Pruning Policy

2025-09-28 · 原文 · 翻译 · 2509.23931

论文针对大型视觉-语言模型(LVLMs)中视觉token冗余问题,提出了一种训练自由的动态剪枝框架AutoPrune,旨在根据输入样本和任务的复杂度自适应地调整剪枝策略 核心问题在于:现有方法采用固定的层特定剪枝策略,无法适应不同输入的多样化复杂度需求,导致推理效率与性能之间的次优权衡

6 分钟读完 6 张阅读卡 State Key Laboratory of Multimodal Artificial Intel…
一眼看懂 封面预览

论文针对大型视觉-语言模型(LVLMs)中视觉token冗余问题,提出了一种训练自由的动态剪枝框架AutoPrune,旨在根据输入样本和任务的…

  • 论文针对大型视觉-语言模型(LVLMs)中视觉token冗余问题,提出了一种训练自由的动态剪枝框架AutoPrune,旨在根据输入样本和任务的…
  • 核心问题在于:现有方法采用固定的层特定剪枝策略,无法适应不同输入的多样化复杂度需求,导致推理效率与性能之间的次优权衡
  • 提出认知神经科学启发的分析框架,系统性地将样本/任务复杂度与跨模态注意力中的token保留衰减和层间波动关联起来
Card 01 研究单位

研究单位

  • State Key Laboratory of Multimodal Artificial Intelligence Systems (MAIS), CASIA
  • School of Artificial Intelligence, University of Chinese Academy of Sciences
  • AutoLab, School of Artificial Intelligence, Shanghai Jiao Tong University
  • Anyverse Intelligence
  • Beijing Key Laboratory of Super Intelligent Security of Multi-Modal Information
  • School of Information Science and Technology, ShanghaiTech University
  • KargoBot
Card 02 论文概述

论文概述

  • 论文针对大型视觉-语言模型(LVLMs)中视觉token冗余问题,提出了一种训练自由的动态剪枝框架AutoPrune,旨在根据输入样本和任务的复杂度自适应地调整剪枝策略
  • 核心问题在于:现有方法采用固定的层特定剪枝策略,无法适应不同输入的多样化复杂度需求,导致推理效率与性能之间的次优权衡
Card 03 核心贡献

核心贡献

  • 提出认知神经科学启发的分析框架,系统性地将样本/任务复杂度与跨模态注意力中的token保留衰减和层间波动关联起来
  • 设计AutoPrune复杂度自适应剪枝框架,通过计算视觉-文本token间的互信息,映射到预算约束的逻辑斯谛保留曲线,为每个样本和任务定制剪枝策略
  • 实现无需训练、即插即用的部署方式,严格保证预定义的token数量或FLOPs预算
  • 多个VLM和VLA模型上验证通用性,包括LLaVA-1.5、LLaVA-NeXT和Senna(自动驾驶场景)
Card 04 方法描述

方法描述

  • 复杂度量化:利用早期层视觉token与文本token之间的互信息(Mutual Information)作为复杂度指标,高互信息表示简单任务(可直接定位目标),低互信息表示复杂任务(需要广泛探索)
  • 逻辑斯谛保留曲线:将互信息映射为预算约束的逻辑斯谛函数,通过调整斜率和拐点参数,实现简单任务的前置激进剪枝(橙色曲线)和复杂任务的保守延迟剪枝(蓝色曲线)
  • 预算强制执行:通过解析积分和重归一化,确保曲线下方面积等于用户指定的token数或FLOPs预算,使用二分搜索调整全局缩放因子
  • 动态策略:曲线参数(斜率k和拐点x₀)与互信息呈线性关系,实现样本级别的自适应
Card 05 数据集与资源

数据集与资源

  • 评估数据集:MME、MMBench、ScienceQA、GQA、TextVQA、VQA²、POPE、nuScenes(自动驾驶)
  • 测试模型:LLaVA-1.5-7B、LLaVA-NeXT-7B、Senna(VLA模型)
  • 计算资源:单张NVIDIA Tesla A100 GPU
Card 06 评估与结果

评估与结果

  • 基准对比:与ToMe、FastV、SparseVLM、PDrop(CVPR'2025)、VisionZip、FasterVLM等训练自由剪枝方法对比
  • 关键指标:平均token保留数、任务准确率、性能保留比例(Ratio)、FLOPs占比
  • 核心结果

- LLaVA-1.5-7B上剪枝89%视觉token,FLOPs降低76.8%,仍保持96.7%原始平均准确率,较PDrop提升9.1%

- 中等剪枝(78%移除,128 token)时保持98.1%性能,优于PDrop的95.6%

- LLaVA-NeXT-7B上320 token预算时达到98.2%性能保留,160 token时达94.9%,显著优于FasterVLM的86.7%

- 自动驾驶Senna模型上25% token保留时达到111.23%相对精度,超过原始未剪枝模型