Leave No Observation Behind: Real-time Correction for VLA Action Chunks

一眼看懂封面预览

提出 Asynchronous Action Chunk Correction (A2C2)，一种轻量级实时动作块校正机制，用于解决视觉-语言…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 Asynchronous Action Chunk Correction (A2C2)，一种轻量级实时动作块校正机制，用于解决视觉-语言-动作 (VLA) 模型在推理延迟和长时域执行下的反应性问题
核心思想是在每个控制步骤运行一个轻量校正头，结合最新观测、基础策略预测的动作、时序位置特征和基础策略特征，输出残差修正量
解决大型 VLA 模型（如 π₀、OpenVLA、SmolVLA）因推理延迟导致的开环执行误差累积问题

Card 03 核心贡献

形式化定义了 VLA 动作块策略中的推理延迟问题，明确延迟 d、执行时域 e 和动作块长度 H 的关系
提出 A2C2 插件式校正头，无需重新训练基础策略，可与任意现成 VLA 模型结合
引入时间感知校正机制，通过正弦位置编码 τₖ 显式建模动作在块内的位置
在动态任务 Kinetix (12个任务) 和机器人操作基准 LIBERO Spatial 上验证，在延迟和长时域设置下分别提升 +23% 和 +7% 成功率
校正头参数量仅 0.31M (Kinetix) 和 32M (LIBERO)，推理开销极小

Card 04 方法描述

两阶段训练流程：先训练基础策略 π，再用基础策略输出构建校正数据集训练 π_a2c2
校正头输入：最新观测 o_{t+k}、基础动作 a^{base}_{t+k}、时序特征 τₖ、基础策略表征 z_{t+k}、语言指令 l
残差学习：预测残差动作 Δa_{t+k}，与基础动作相加得到执行动作 a^{exec}_{t+k} = a^{base}_{t+k} + Δa_{t+k}
架构设计：Kinetix 使用 3层 MLP (512隐藏单元)；LIBERO 使用 6层 Transformer 编码器 + 3层 MLP
正弦位置编码：τₖ = (sin(2πk/H), cos(2πk/H)) 提供块内位置的周期性结构

Card 05 数据集与资源

Kinetix：12个动态任务，每任务100万步专家数据，状态维度2722，动作维度6
LIBERO Spatial：10个空间推理任务，432条演示，52,970帧，包含顶部/腕部RGB图像 (256×256)、8维状态、语言指令
基础模型：Kinetix 使用流匹配策略；LIBERO 使用 SmolVLA (450M参数)
训练资源：使用 AdamW 优化器，Kinetix 批次大小512，LIBERO 批次大小64
开源代码：https://github.com/k1000dai/a2c2-kinetix 和 https://github.com/k1000dai/a2c2-libero

Card 06 评估与结果

- d=4 时，A2C2 比朴素异步提升 ~35%，比 RTC 提升 ~23%

- 长时域 H=7 时，成功率保持 85% 以上

- H=40, d=10 时，A2C2 成功率 84.2% vs 朴素 64.4%

- H=50, d=0 时，A2C2 成功率 81.6% vs 朴素 72.2%