返回列表 VLA / Vision-Language-Action 每日论文卡
Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation
研究针对 Vision-Language-Action (VLA) 模型在机器人操作中的高效推理问题,旨在减少长时序多模态上下文中的计算成本

论文详情

Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation

2025-09-26 · 原文 · 翻译 · 2509.22093

研究针对 Vision-Language-Action (VLA) 模型在机器人操作中的高效推理问题,旨在减少长时序多模态上下文中的计算成本 核心问题:现有方法忽略了机器人操作不同阶段视觉 token 的冗余程度差异——粗粒度操作阶段(如移动)冗余度高,细粒度操作阶段(如抓取)冗余度低 提出 Action-aware Dynamic Pruning (ADP)框架,通过结合文本驱动的 token 选择与动作感知的轨…

5 分钟读完 6 张阅读卡 School of Computer Science, The University of Sydne…
一眼看懂 封面预览

研究针对 Vision-Language-Action (VLA) 模型在机器人操作中的高效推理问题,旨在减少长时序多模态上下文中的计算成本

  • 研究针对 Vision-Language-Action (VLA) 模型在机器人操作中的高效推理问题,旨在减少长时序多模态上下文中的计算成本
  • 核心问题:现有方法忽略了机器人操作不同阶段视觉 token 的冗余程度差异——粗粒度操作阶段(如移动)冗余度高,细粒度操作阶段(如抓取)冗余度低
  • 提出 Action-aware Dynamic Pruning (ADP)框架,通过结合文本驱动的 token 选择与动作感知的轨迹门控,实现…
Card 01 研究单位

研究单位

  • School of Computer Science, The University of Sydney(悉尼大学计算机科学学院)
Card 02 论文概述

论文概述

  • 研究针对 Vision-Language-Action (VLA) 模型在机器人操作中的高效推理问题,旨在减少长时序多模态上下文中的计算成本
  • 核心问题:现有方法忽略了机器人操作不同阶段视觉 token 的冗余程度差异——粗粒度操作阶段(如移动)冗余度高,细粒度操作阶段(如抓取)冗余度低
  • 提出 Action-aware Dynamic Pruning (ADP)框架,通过结合文本驱动的 token 选择与动作感知的轨迹门控,实现自适应的动态剪枝
Card 03 核心贡献

核心贡献

  • 发现 VLA 模型中视觉 token 的重要性在机器人操作的不同阶段会动态变化,这一观察为动态剪枝方法提供了理论基础
  • 提出文本驱动的动作感知剪枝,将任务指令相关性评估与末端执行器运动门控相结合,实现剪枝状态与完整视觉状态的自适应切换
  • 引入窗口轨迹距离 (Windowed Trajectory Distance) 机制,通过比较当前动作幅度与历史统计量来动态决定是否启用剪枝
  • 提供有原则的计算复杂度分析,推导出预期 FLOPs 节省公式
  • LIBERO 模拟环境真实机器人平台上进行广泛验证
Card 04 方法描述

方法描述

  • 文本驱动的预见性剪枝 (Text-driven Anticipatory Pruning):在 LLM 之前计算视觉 token 与文本指令的跨模态相似度,通过公式 (7)-(10) 计算每个视觉 token 的重要性分数 Φ,然后保留 Top-K 个最相关的 token
  • 动作感知的动态策略 (Action-Aware Dynamic Strategy)

- 将每个动作分块视为时间窗口,计算窗口内的末端执行器轨迹距离 δ_i(公式 15)

- 使用二元状态变量 s_i:s_i=0 表示完整视觉(不剪枝),s_i=1 表示剪枝状态

- 动态决策函数(公式 16)比较当前 δ_i 与历史平均值,或使用邻域极值函数(公式 17-18)实现快速状态切换

  • 复杂度分析:剪枝在嵌入层执行,缩短的序列长度 S' 使所有 H 层 Transformer 层均受益
Card 05 数据集与资源

数据集与资源

  • 数据集:LIBERO benchmark(含 Spatial、Object、Goal、Long 四个子集)
  • 基础模型:OpenVLA-OFT (7B 参数)
  • 训练/推理硬件:NVIDIA RTX 4090
  • 真实机器人平台:Jaco2 机械臂
  • 多视角设置:场景相机 + 手腕/夹爪相机
Card 06 评估与结果

评估与结果

  • LIBERO 模拟实验

- VLA-ADP (Ratio=50%):平均成功率 96.3%,FLOPs 从 7.91 降至 6.43,加速 1.23×

- VLA-ADP (Ratio=30%):平均成功率 94.4%,加速 1.35×

- Spatial 子集达到 99.4% 成功率

  • 真实世界实验(4 项任务):

- 平均成功率从 85.8% 提升至 88.3%

- 延迟从 76.9ms 降至 51.8ms加速 1.49×

  • 消融实验:动作感知动态策略使平均 SR 提升 +2.85 个百分点;使用第 0 层计算重要性分数可获得最佳精度-计算平衡