Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models

论文详情

Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models

2025-05-27 · 原文 · 翻译 · 2505.21200

论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题，提出了一种无需训练的加速框架。研究发现了 VLA 模型中存在的双重冗余：连续动作步骤的高相似性（时间冗余）和视觉 Token 的实质性冗余。目标是通过动作复用和 Token 剪枝机制，在不重新训练的情况下实现高效的 VLA 推理。

4 分钟读完 6 张阅读卡 Fudan University

一眼看懂封面预览

论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题，提出了一种无需训练的加速框架。

论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题，提出了一种无需训练的加速框架。
研究发现了 VLA 模型中存在的双重冗余：连续动作步骤的高相似性（时间冗余）和视觉 Token 的实质性冗余。
目标是通过动作复用和 Token 剪枝机制，在不重新训练的情况下实现高效的 VLA 推理。

Card 01 研究单位

研究单位

Fudan University
Shanghai AI Laboratory
The Chinese University of Hong Kong
Zhangjiang Laboratory

Card 02 论文概述

论文概述

论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题，提出了一种无需训练的加速框架。
研究发现了 VLA 模型中存在的双重冗余：连续动作步骤的高相似性（时间冗余）和视觉 Token 的实质性冗余。
目标是通过动作复用和 Token 剪枝机制，在不重新训练的情况下实现高效的 VLA 推理。

Card 03 核心贡献

核心贡献

识别了 VLA 推理中动作层面和 Token 层面的冗余现象，发现连续动作步骤往往高度相似，且大量视觉 Token 对推理贡献甚微。
提出了 FlashVLA，这是首个无需训练、即插即用的 VLA 模型加速框架，支持动作复用机制。
设计了基于信息贡献理论的视觉 Token 选择策略，能够兼容 Flash Attention 并有效保留高信息量 Token。
引入了 Token 感知的动作复用策略，通过轻量级评估机制决定是否跳过计算或复用先前动作。

Card 04 方法描述

方法描述

框架核心为 FlashVLA，包含两个主要模块：Token 感知的动作复用机制和信息引导的视觉 Token 选择策略。
视觉 Token 选择策略通过对注意力输出矩阵进行奇异值分解 (SVD)，计算每个 Token 的 Information Contribution Score (ICS)，以此保留对全局特征表示贡献最大的 Token。
动作复用策略通过 FlashTrigger 模块实现，利用动作记忆存储、计算动作向量夹角及视觉 Token 稳定性 (KL 散度)，判断是否跳过当前推理步骤并复用上一时刻的动作。

Card 05 数据集与资源

数据集与资源

使用 LIBERO 基准数据集进行评估，包含 Spatial, Object, Goal, Long 四个代表性任务。
基于 OpenVLA 模型（7B 参数量）进行方法验证。
该方法无需额外训练资源，属于 Training-free 方法。

Card 06 评估与结果

评估与结果

评估环境为 LIBERO 模拟环境基准测试。
主要评估指标包括任务成功率、FLOPs（计算量）和推理延迟。
实验结果显示，在视觉 Token 数量减少至原始输入 62.5% 的情况下，FLOPs 降低了 55.7%，延迟降低了 36.0%，而任务成功率仅下降了 0.7%。