返回列表 VLA / Vision-Language-Action 每日论文卡
The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning
提出 LightVLA,一种面向视觉-语言-动作(VLA)模型的可微分 token 剪枝框架,旨在解决 VLA 模型在资源受限平台上部署时的高…

论文详情

The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning

2025-09-16 · 原文 · 翻译 · 2509.12594

提出 LightVLA,一种面向视觉-语言-动作(VLA)模型的可微分 token 剪枝框架,旨在解决 VLA 模型在资源受限平台上部署时的高计算复杂度和延迟问题 通过自适应、性能驱动的视觉 token 剪枝,在提升效率的同时改善任务执行性能,打破效率与性能之间的传统权衡关系 首次将自适应视觉 token 剪枝应用于 VLA 任务,实现效率与性能的协同优化

5 分钟读完 6 张阅读卡 LiAuto Inc.(理想汽车)
一眼看懂 封面预览

提出 LightVLA,一种面向视觉-语言-动作(VLA)模型的可微分 token 剪枝框架,旨在解决 VLA 模型在资源受限平台上部署时的高…

  • 提出 LightVLA,一种面向视觉-语言-动作(VLA)模型的可微分 token 剪枝框架,旨在解决 VLA 模型在资源受限平台上部署时的高…
  • 通过自适应、性能驱动的视觉 token 剪枝,在提升效率的同时改善任务执行性能,打破效率与性能之间的传统权衡关系
  • 首次将自适应视觉 token 剪枝应用于 VLA 任务,实现效率与性能的协同优化
Card 01 研究单位

研究单位

  • LiAuto Inc.(理想汽车)
  • School of Vehicle and Mobility, Tsinghua University(清华大学车辆与运载学院)
  • Institute of Computing Technology, Chinese Academy of Sciences(中国科学院计算技术研究所)
Card 02 论文概述

论文概述

  • 提出 LightVLA,一种面向视觉-语言-动作(VLA)模型的可微分 token 剪枝框架,旨在解决 VLA 模型在资源受限平台上部署时的高计算复杂度和延迟问题
  • 通过自适应、性能驱动的视觉 token 剪枝,在提升效率的同时改善任务执行性能,打破效率与性能之间的传统权衡关系
  • 首次将自适应视觉 token 剪枝应用于 VLA 任务,实现效率与性能的协同优化
Card 03 核心贡献

核心贡献

  • 实证表明 VLA 模型的性能和效率可以协同优化,而非传统认知中的权衡关系
  • 提出 LightVLA,一种无额外可训练参数的性能驱动可微分视觉 token 剪枝框架
  • LIBERO 基准上取得最优性能,相比基线模型 OpenVLA-OFT 减少 59.1% FLOPs38.2% 延迟,同时提升 2.6% 任务成功率
  • 提出 LightVLA* 变体,探索基于可学习查询的 token 剪枝方法,同样取得优异性能
Card 04 方法描述

方法描述

  • 查询生成:通过视觉 token 与语言指令 token 的交叉注意力动态生成查询,无需额外参数
  • Token 评分:每个查询对所有视觉 token 进行重要性评分
  • Token 选择:采用 Gumbel-softmax 技术实现可微分的 token 选择,支持端到端训练
  • 噪声调度策略:训练过程中逐渐降低采样噪声强度,早期鼓励多样化探索,后期促进稳定收敛
  • 保留 [CLS] token 以维持全局视觉信息,仅对 patch 级视觉 token 进行剪枝
Card 05 数据集与资源

数据集与资源

  • 数据集LIBERO 基准(包含 LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long 四个任务套件,共 40 个任务,500 条专家演示)
  • 基础模型OpenVLA-OFT(7B 参数,基于 PrismaticVLM 视觉编码器、LLaMA-2-7B 语言模型骨干)
  • 训练资源:8 张 NVIDIA H20 GPU
  • 优化设置LoRA 微调(rank=32),40,000 梯度步,学习率 5e-4 降至 5e-5,全局 batch size 64
Card 06 评估与结果

评估与结果

  • 评估基准:LIBERO 基准的四个任务套件,每个套件 500 次试验
  • 主要指标:任务成功率(Success Rate, %)、保留视觉 token 数量、TFLOPs、端到端延迟(ms)
  • 关键结果

- 平均仅保留 78 个 token(相比原始 512 个 token,减少约 85%)

- 平均成功率达 97.4%,超越所有对比基线

- 计算成本降至 3.6 TFLOPs(基线 8.8 TFLOPs),延迟降至 21 ms(基线 34 ms)

- 定性可视化显示保留 token 集中于任务相关物体(如摩卡壶、炉灶),背景 token 被有效剪除