一眼看懂
封面预览
论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题,提出了一种无需训练的加速框架。
- 论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题,提出了一种无需训练的加速框架。
- 研究发现了 VLA 模型中存在的双重冗余:连续动作步骤的高相似性(时间冗余)和视觉 Token 的实质性冗余。
- 目标是通过动作复用和 Token 剪枝机制,在不重新训练的情况下实现高效的 VLA 推理。
Card 01
研究单位
研究单位
- Fudan University
- Shanghai AI Laboratory
- The Chinese University of Hong Kong
- Zhangjiang Laboratory
Card 02
论文概述
论文概述
- 论文针对 Vision-Language-Action (VLA) 模型推理成本高、延迟高的问题,提出了一种无需训练的加速框架。
- 研究发现了 VLA 模型中存在的双重冗余:连续动作步骤的高相似性(时间冗余)和视觉 Token 的实质性冗余。
- 目标是通过动作复用和 Token 剪枝机制,在不重新训练的情况下实现高效的 VLA 推理。
Card 03
核心贡献
核心贡献
- 识别了 VLA 推理中动作层面和 Token 层面的冗余现象,发现连续动作步骤往往高度相似,且大量视觉 Token 对推理贡献甚微。
- 提出了 FlashVLA,这是首个无需训练、即插即用的 VLA 模型加速框架,支持动作复用机制。
- 设计了基于信息贡献理论 的视觉 Token 选择策略,能够兼容 Flash Attention 并有效保留高信息量 Token。
- 引入了 Token 感知的动作复用策略,通过轻量级评估机制决定是否跳过计算或复用先前动作。
Card 04
方法描述
方法描述
- 框架核心为 FlashVLA,包含两个主要模块:Token 感知的动作复用机制和信息引导的视觉 Token 选择策略。
- 视觉 Token 选择策略通过对注意力输出矩阵进行奇异值分解 (SVD),计算每个 Token 的 Information Contribution Score (ICS),以此保留对全局特征表示贡献最大的 Token。
- 动作复用策略通过 FlashTrigger 模块实现,利用动作记忆 存储、计算动作向量夹角及视觉 Token 稳定性 (KL 散度),判断是否跳过当前推理步骤并复用上一时刻的动作。
Card 05
数据集与资源
数据集与资源
- 使用 LIBERO 基准数据集进行评估,包含 Spatial, Object, Goal, Long 四个代表性任务。
- 基于 OpenVLA 模型(7B 参数量)进行方法验证。
- 该方法无需额外训练资源,属于 Training-free 方法。
Card 06
评估与结果
评估与结果
- 评估环境为 LIBERO 模拟环境基准测试。
- 主要评估指标包括任务成功率、FLOPs(计算量)和推理延迟。
- 实验结果显示,在视觉 Token 数量减少至原始输入 62.5% 的情况下,FLOPs 降低了 55.7%,延迟降低了 36.0%,而任务成功率仅下降了 0.7%。