一眼看懂
封面预览
提出了 EcoVLA,这是一个免训练、即插即用的自适应剪枝框架,旨在加速 Vision-Language-Action (VLA) 模型。
- 提出了 EcoVLA,这是一个免训练、即插即用的自适应剪枝框架,旨在加速 Vision-Language-Action (VLA) 模型。
- 旨在解决 VLA 模型因参数量大导致的高推理延迟问题,以及现有静态剪枝或粗粒度动态剪枝方法在动态环境中的局限性。
- 框架包含两个核心组件:Environment-aware Adaptive Pruning (EAP) 和 Interleaved Infer…
Card 01
研究单位
研究单位
- 论文作者包括 Yuting Huang、Leilei Ding、Zhipeng Tang、Zenghuan Zhu、Jiajun Deng、Xinrui Lin、Shuo Liu、Haojie Ren、Jianmin Ji 和 Yanyong Zhang
- 具体所属研究机构在提供的 HTML 片段中未明确列出
Card 02
论文概述
论文概述
- 提出了 EcoVLA,这是一个免训练、即插即用的自适应剪枝框架,旨在加速 Vision-Language-Action (VLA) 模型。
- 旨在解决 VLA 模型因参数量大导致的高推理延迟问题,以及现有静态剪枝或粗粒度动态剪枝方法在动态环境中的局限性。
- 框架包含两个核心组件:Environment-aware Adaptive Pruning (EAP) 和 Interleaved Inference Orchestration ($I^2O$),实现了动态稀疏模式更新并将剪枝开销降至最低。
Card 03
核心贡献
核心贡献
- 提出了首个针对 VLA 模型的免训练、即插即用自适应剪枝框架 EcoVLA。
- 设计了 Environment-aware Adaptive Pruning (EAP),利用视觉特征相似性和时间上下文触发器进行轻量级动态通道剪枝。
- 提出了 Interleaved Inference Orchestration ($I^2O$),利用 VLA 推理过程中的“FLOPs bubbles”并行执行剪枝操作,避免了额外的延迟开销。
- 在仿真基准测试和真实机器人上验证了方法的有效性,实现了最高 1.60x 的加速,且精度损失极小。
Card 04
方法描述
方法描述
- EAP 包含轻量级环境感知稀疏变化预测器,通过计算视觉特征的余弦相似度和滑动窗口分位数触发机制来检测环境变化。
- 引入了 Temporal Consistency Pruning,通过聚合瞬时特征和历史特征(使用指数移动平均)来计算重要性分数,确保剪枝决策的时间一致性。
- $I^2O 将剪枝计算解耦到并行流中,在 VLM Backbone 阶段(内存未充分利用)和 Action Expert 阶段(计算未充分利用)交错执行,隐藏了剪枝开销。
- 实现了硬件高效的优化,包括基于 Triton 的稀疏高效内核、内存合并和高性能融合内核。
Card 05
数据集与资源
数据集与资源
- 仿真基准:LIBERO(包括 Spatial, Object, Goal, Long 变体)和 SIMPLER。
- VLA 模型:OpenVLA-OFT、$\pi_{0.5}$ 和 CogAct。
- 真实机器人:7-DoF Kinova Gen3 机械臂。
Card 06
评估与结果
评估与结果
- 在 OpenVLA-OFT 上,25% 剪枝率下实现了 1.26x 加速,成功率为 96.8%(优于 Vanilla 的 96.7%)。
- 结合 FastV 方法,在 25% 剪枝率下实现了 2.18x 加速,成功率为 96.2%,与原始模型性能差距仅为 0.5%。
- 在 $\pi_{0.5}$ 模型上,37.5% 稀疏度下实现了 1.46x 加速,成功率为 95.0%。
- 在 CogAct 模型上评估了 Pick Coke、Move Near 和 Open/Close 等任务的成功率。