返回列表 VLA / Vision-Language-Action 每日论文卡
Adaptive Action Chunking at Inference-time for Vision-Language-Action Models
针对视觉-语言-动作(VLA)模型中固定动作分块大小导致的反应性与一致性失衡问题,提出推理时自适应解决方案。

论文详情

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

2026-04-05 · 原文 · 翻译 · 2604.04161

针对视觉-语言-动作(VLA)模型中固定动作分块大小导致的反应性与一致性失衡问题,提出推理时自适应解决方案。 核心目标:动态确定最优动作分块大小,以平衡模型对新信息的反应能力与动作序列的时间一致性。 提出 Adaptive Action Chunking (AAC) 策略,利用动作熵作为线索,在推理时自适应调整分块大小,无需额外训练或架构修改。

5 分钟读完 6 张阅读卡 National University of Singapore
一眼看懂 封面预览

针对视觉-语言-动作(VLA)模型中固定动作分块大小导致的反应性与一致性失衡问题,提出推理时自适应解决方案。

  • 针对视觉-语言-动作(VLA)模型中固定动作分块大小导致的反应性与一致性失衡问题,提出推理时自适应解决方案。
  • 核心目标:动态确定最优动作分块大小,以平衡模型对新信息的反应能力与动作序列的时间一致性。
  • 提出 Adaptive Action Chunking (AAC) 策略,利用动作熵作为线索,在推理时自适应调整分块大小,无需额外训练或架构修…
Card 01 研究单位

研究单位

  • National University of Singapore
  • Shenzhen University of Advanced Technology
  • Sangfor Technologies Inc.
  • Mininglamp Technology
  • Shenzhen Technology University
  • City University of Hong Kong
Card 02 论文概述

论文概述

  • 针对视觉-语言-动作(VLA)模型中固定动作分块大小导致的反应性与一致性失衡问题,提出推理时自适应解决方案。
  • 核心目标:动态确定最优动作分块大小,以平衡模型对新信息的反应能力与动作序列的时间一致性。
  • 提出 Adaptive Action Chunking (AAC) 策略,利用动作熵作为线索,在推理时自适应调整分块大小,无需额外训练或架构修改。
Card 03 核心贡献

核心贡献

  • 分析了现有动作分块方法的局限性,强调了在推理时进行自适应分块对于扩散类VLA模型的重要性。
  • 提出了 AAC 算法,这是一种简单有效的方法,利用动作熵在推理时动态选择最优动作分块大小。
  • 在广泛的模拟基准和真实世界机器人操作任务上进行了实验验证,证明了该方法优于基线和最先进的替代方案。
Card 04 方法描述

方法描述

  • AAC 算法仅作用于推理阶段,通过并行采样 N 个候选动作块来估计动作分布。
  • 分别计算连续控制(如平移、旋转)的微分熵和离散控制(如夹爪状态)的熵,以量化预测动作的不确定性。
  • 通过计算不同分块大小下的平均动作熵,寻找熵值增加的最大差分点,并结合最小动作幅度约束,动态确定最优分块大小 h*。
  • 关键创新:完全无需额外训练,可直接应用于不同VLA模型骨干,具有良好的鲁棒性和可扩展性。
Card 05 数据集与资源

数据集与资源

  • 使用模拟基准:RoboCasa KitchenLIBERO
  • 真实世界任务数据:通过SpaceMouse采集的人类遥操作演示数据(每个任务50条轨迹)。
  • 模型基于 GR00T N1.5 进行微调,其VLM骨干为Eagle-2,动作头为Diffusion Transformer。
  • 训练资源:使用 8 NVIDIA A800 GPUs 进行混合精度微调训练。
Card 06 评估与结果

评估与结果

  • 评估基准:RoboCasa KitchenLIBERO 及其变体(LIBERO-Pro)、以及真实世界桌面任务。
  • 主要指标:任务成功率。
  • 关键结果:

- 在 RoboCasa 上,AAC相比默认基线平均成功率提升 2.3%,在需要精细控制的旋转类任务上提升显著。

- 在 LIBERO 上,平均成功率提升 0.9%,在最具挑战的长时序任务上提升 4%

- 在真实世界任务中,AAC相比基线平均成功率提升 15%,并在安全性和定位精度上表现更优。

- 方法具有良好的可扩展性,已验证适用于 GR00Tπ0.5 等不同骨干模型。