返回列表 VLA / Vision-Language-Action 每日论文卡
Token Expand-Merge: Training-Free Token Compression for Vision-Language-Action Models
提出 TEAM-VLA (Token Expand-and-Merge-VLA),一种无需训练的token压缩框架,用于加速视觉-语言-动作(…

论文详情

Token Expand-Merge: Training-Free Token Compression for Vision-Language-Action Models

2025-12-10 · 原文 · 翻译 · 2512.09927

提出 TEAM-VLA (Token Expand-and-Merge-VLA),一种无需训练的token压缩框架,用于加速视觉-语言-动作(VLA)模型的推理 解决VLA模型参数量巨大(数十亿参数)、推理计算开销高、难以实时部署的问题 核心思想:通过动态token扩展和选择性合并,在保持任务性能的同时显著降低计算延迟

5 分钟读完 6 张阅读卡 Hamad Bin Khalifa University (卡塔尔,科学与工程学院)
一眼看懂 封面预览

提出 TEAM-VLA (Token Expand-and-Merge-VLA),一种无需训练的token压缩框架,用于加速视觉-语言-动作(…

  • 提出 TEAM-VLA (Token Expand-and-Merge-VLA),一种无需训练的token压缩框架,用于加速视觉-语言-动作(…
  • 解决VLA模型参数量巨大(数十亿参数)、推理计算开销高、难以实时部署的问题
  • 核心思想:通过动态token扩展和选择性合并,在保持任务性能的同时显著降低计算延迟
Card 01 研究单位

研究单位

  • Hamad Bin Khalifa University (卡塔尔,科学与工程学院)
  • Mohamed bin Zayed University of Artificial Intelligence (阿联酋)
  • Zhejiang University (中国,计算机科学与技术学院)
Card 02 论文概述

论文概述

  • 提出 TEAM-VLA (Token Expand-and-Merge-VLA),一种无需训练的token压缩框架,用于加速视觉-语言-动作(VLA)模型的推理
  • 解决VLA模型参数量巨大(数十亿参数)、推理计算开销高、难以实时部署的问题
  • 核心思想:通过动态token扩展和选择性合并,在保持任务性能的同时显著降低计算延迟
Card 03 核心贡献

核心贡献

  • 提出首个完全无需训练、无需历史帧缓冲、仅依赖当前观测的VLA token压缩框架
  • 设计Token Expanding机制:从稀疏的vision-language相似性信号中重建密集的前景区域,增强上下文完整性
  • 设计Action-Guided Token Merging机制:在深层网络中基于动作感知引导进行软二分图合并,保留关键语义信息
  • LIBERO基准上实现1.5倍加速,同时保持与完整模型相当甚至更高的任务成功率
Card 04 方法描述

方法描述

  • 两阶段压缩策略:(1) 早期剪枝——在输入LLM主干前进行;(2) 中层合并——在LLM中间层进行
  • Token Expanding:计算图像token与语言token的余弦相似度,通过卷积密度估计和区域扩展(确定性扩展+随机扩展)重建完整前景
  • Context Sampling:随机采样少量背景token保持空间感知
  • Task-Guided Bipartite Merging:基于与动作token的相似度选择top-M源token,通过软匹配将目标token加权聚合到源token
  • 关键创新:扩展与合并耦合在单次前向传播中完成,无需重新训练
Card 05 数据集与资源

数据集与资源

  • 数据集LIBERO基准,包含四个子集:LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long
  • 基础模型:基于 OpenVLA-OFT 实现,使用 LightVLA 代码库
  • 实验平台:单张 NVIDIA A100-40GB GPU
  • 模型规模:7B参数级别的VLA模型
Card 06 评估与结果

评估与结果

  • 评估指标:成功率(SR)、FLOPs、CUDA延迟(ms)
  • 主要结果

- 将OpenVLA-OFT的推理时间从109ms降至72.1ms,实现1.5倍加速

- 平均成功率96.6%,与原始模型持平

- FLOPs降低至39%,显著优于VLA-Cache(83%)、SpecPrune-VLA(43%)等方法

- 在LIBERO-Spatial上达到99.2%成功率,LIBERO-Object上96.5%

  • 关键发现

- 合并策略在深层(Layer 16)效果最佳,成功率93.8% vs 剪枝的92.1%

- 最优参数:扩展阈值τ=1,上下文采样率u∈[0.1,0.35],合并token数M∈[50,130]

- 相比其他无需训练方法,TEAM-VLA保留的token数显著更少(平均432个),性能却更优