返回列表 VLA / Vision-Language-Action 每日论文卡

Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models

论文详情

Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models

2025-05-27 · 原文 · 翻译 · 2505.21200

论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题,提出了一种无需训练的加速框架。 研究发现了 VLA 模型中存在的双重冗余:连续动作步骤的高相似性(时间冗余)和视觉 Token 的实质性冗余。 目标是通过动作复用和 Token 剪枝机制,在不重新训练的情况下实现高效的 VLA 推理。

4 分钟读完 6 张阅读卡 Fudan University
一眼看懂 封面预览

论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题,提出了一种无需训练的加速框架。

  • 论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题,提出了一种无需训练的加速框架。
  • 研究发现了 VLA 模型中存在的双重冗余:连续动作步骤的高相似性(时间冗余)和视觉 Token 的实质性冗余。
  • 目标是通过动作复用和 Token 剪枝机制,在不重新训练的情况下实现高效的 VLA 推理。
Card 01 研究单位

研究单位

  • Fudan University
  • Shanghai AI Laboratory
  • The Chinese University of Hong Kong
  • Zhangjiang Laboratory
Card 02 论文概述

论文概述

  • 论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题,提出了一种无需训练的加速框架。
  • 研究发现了 VLA 模型中存在的双重冗余:连续动作步骤的高相似性(时间冗余)和视觉 Token 的实质性冗余。
  • 目标是通过动作复用和 Token 剪枝机制,在不重新训练的情况下实现高效的 VLA 推理。
Card 03 核心贡献

核心贡献

  • 识别了 VLA 推理中动作层面和 Token 层面的冗余现象,发现连续动作步骤往往高度相似,且大量视觉 Token 对推理贡献甚微。
  • 提出了 FlashVLA,这是首个无需训练、即插即用的 VLA 模型加速框架,支持动作复用机制。
  • 设计了基于信息贡献理论 的视觉 Token 选择策略,能够兼容 Flash Attention 并有效保留高信息量 Token。
  • 引入了 Token 感知的动作复用策略,通过轻量级评估机制决定是否跳过计算或复用先前动作。
Card 04 方法描述

方法描述

  • 框架核心为 FlashVLA,包含两个主要模块:Token 感知的动作复用机制和信息引导的视觉 Token 选择策略。
  • 视觉 Token 选择策略通过对注意力输出矩阵进行奇异值分解 (SVD),计算每个 Token 的 Information Contribution Score (ICS),以此保留对全局特征表示贡献最大的 Token。
  • 动作复用策略通过 FlashTrigger 模块实现,利用动作记忆 存储、计算动作向量夹角及视觉 Token 稳定性 (KL 散度),判断是否跳过当前推理步骤并复用上一时刻的动作。
Card 05 数据集与资源

数据集与资源

  • 使用 LIBERO 基准数据集进行评估,包含 Spatial, Object, Goal, Long 四个代表性任务。
  • 基于 OpenVLA 模型(7B 参数量)进行方法验证。
  • 该方法无需额外训练资源,属于 Training-free 方法。
Card 06 评估与结果

评估与结果

  • 评估环境为 LIBERO 模拟环境基准测试。
  • 主要评估指标包括任务成功率、FLOPs(计算量)和推理延迟。
  • 实验结果显示,在视觉 Token 数量减少至原始输入 62.5% 的情况下,FLOPs 降低了 55.7%,延迟降低了 36.0%,而任务成功率仅下降了 0.7%