针对视觉-语言-动作（VLA）模型中固定动作分块大小导致的反应性与一致性失衡问题，提出推理时自适应解决方案。

论文详情

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

2026-04-05 · 原文 · 翻译 · 2604.04161

针对视觉-语言-动作（VLA）模型中固定动作分块大小导致的反应性与一致性失衡问题，提出推理时自适应解决方案。核心目标：动态确定最优动作分块大小，以平衡模型对新信息的反应能力与动作序列的时间一致性。提出 Adaptive Action Chunking (AAC) 策略，利用动作熵作为线索，在推理时自适应调整分块大小，无需额外训练或架构修改。

5 分钟读完 6 张阅读卡 National University of Singapore

一眼看懂封面预览

针对视觉-语言-动作（VLA）模型中固定动作分块大小导致的反应性与一致性失衡问题，提出推理时自适应解决方案。

针对视觉-语言-动作（VLA）模型中固定动作分块大小导致的反应性与一致性失衡问题，提出推理时自适应解决方案。
核心目标：动态确定最优动作分块大小，以平衡模型对新信息的反应能力与动作序列的时间一致性。
提出 Adaptive Action Chunking (AAC) 策略，利用动作熵作为线索，在推理时自适应调整分块大小，无需额外训练或架构修…

Card 01 研究单位

研究单位

National University of Singapore
Shenzhen University of Advanced Technology
Sangfor Technologies Inc.
Mininglamp Technology
Shenzhen Technology University
City University of Hong Kong

Card 02 论文概述

论文概述

针对视觉-语言-动作（VLA）模型中固定动作分块大小导致的反应性与一致性失衡问题，提出推理时自适应解决方案。
核心目标：动态确定最优动作分块大小，以平衡模型对新信息的反应能力与动作序列的时间一致性。
提出 Adaptive Action Chunking (AAC) 策略，利用动作熵作为线索，在推理时自适应调整分块大小，无需额外训练或架构修改。

Card 03 核心贡献

核心贡献

分析了现有动作分块方法的局限性，强调了在推理时进行自适应分块对于扩散类VLA模型的重要性。
提出了 AAC 算法，这是一种简单有效的方法，利用动作熵在推理时动态选择最优动作分块大小。
在广泛的模拟基准和真实世界机器人操作任务上进行了实验验证，证明了该方法优于基线和最先进的替代方案。

Card 04 方法描述

方法描述

AAC 算法仅作用于推理阶段，通过并行采样 N 个候选动作块来估计动作分布。
分别计算连续控制（如平移、旋转）的微分熵和离散控制（如夹爪状态）的熵，以量化预测动作的不确定性。
通过计算不同分块大小下的平均动作熵，寻找熵值增加的最大差分点，并结合最小动作幅度约束，动态确定最优分块大小 h*。
关键创新：完全无需额外训练，可直接应用于不同VLA模型骨干，具有良好的鲁棒性和可扩展性。

Card 05 数据集与资源

数据集与资源

使用模拟基准：RoboCasa Kitchen 和 LIBERO。
真实世界任务数据：通过SpaceMouse采集的人类遥操作演示数据（每个任务50条轨迹）。
模型基于 GR00T N1.5 进行微调，其VLM骨干为Eagle-2，动作头为Diffusion Transformer。
训练资源：使用 8 NVIDIA A800 GPUs 进行混合精度微调训练。

Card 06 评估与结果

评估与结果

评估基准：RoboCasa Kitchen、LIBERO 及其变体（LIBERO-Pro）、以及真实世界桌面任务。
主要指标：任务成功率。
关键结果：

- 在 RoboCasa 上，AAC相比默认基线平均成功率提升 2.3%，在需要精细控制的旋转类任务上提升显著。

- 在 LIBERO 上，平均成功率提升 0.9%，在最具挑战的长时序任务上提升 4%。

- 在真实世界任务中，AAC相比基线平均成功率提升 15%，并在安全性和定位精度上表现更优。

- 方法具有良好的可扩展性，已验证适用于 GR00T 和 π0.5 等不同骨干模型。