返回列表 VLA / Vision-Language-Action 每日论文卡
Leave No Observation Behind: Real-time Correction for VLA Action Chunks
提出 Asynchronous Action Chunk Correction (A2C2),一种轻量级实时动作块校正机制,用于解决视觉-语言…

论文详情

Leave No Observation Behind: Real-time Correction for VLA Action Chunks

2025-09-27 · 原文 · 翻译 · 2509.23224

提出 Asynchronous Action Chunk Correction (A2C2),一种轻量级实时动作块校正机制,用于解决视觉-语言-动作 (VLA) 模型在推理延迟和长时域执行下的反应性问题 核心思想是在每个控制步骤运行一个轻量校正头,结合最新观测、基础策略预测的动作、时序位置特征和基础策略特征,输出残差修正量 解决大型 VLA 模型(如 π₀、OpenVLA、SmolVLA)因推理延迟导致的开环执行误…

6 分钟读完 6 张阅读卡 The University of Tokyo (东京大学)
一眼看懂 封面预览

提出 Asynchronous Action Chunk Correction (A2C2),一种轻量级实时动作块校正机制,用于解决视觉-语言…

  • 提出 Asynchronous Action Chunk Correction (A2C2),一种轻量级实时动作块校正机制,用于解决视觉-语言…
  • 核心思想是在每个控制步骤运行一个轻量校正头,结合最新观测、基础策略预测的动作、时序位置特征和基础策略特征,输出残差修正量
  • 解决大型 VLA 模型(如 π₀、OpenVLA、SmolVLA)因推理延迟导致的开环执行误差累积问题
Card 01 研究单位

研究单位

  • The University of Tokyo (东京大学)
Card 02 论文概述

论文概述

  • 提出 Asynchronous Action Chunk Correction (A2C2),一种轻量级实时动作块校正机制,用于解决视觉-语言-动作 (VLA) 模型在推理延迟和长时域执行下的反应性问题
  • 核心思想是在每个控制步骤运行一个轻量校正头,结合最新观测、基础策略预测的动作、时序位置特征和基础策略特征,输出残差修正量
  • 解决大型 VLA 模型(如 π₀OpenVLASmolVLA)因推理延迟导致的开环执行误差累积问题
Card 03 核心贡献

核心贡献

  • 形式化定义了 VLA 动作块策略中的推理延迟问题,明确延迟 d、执行时域 e 和动作块长度 H 的关系
  • 提出 A2C2 插件式校正头,无需重新训练基础策略,可与任意现成 VLA 模型结合
  • 引入时间感知校正机制,通过正弦位置编码 τₖ 显式建模动作在块内的位置
  • 在动态任务 Kinetix (12个任务) 和机器人操作基准 LIBERO Spatial 上验证,在延迟和长时域设置下分别提升 +23%+7% 成功率
  • 校正头参数量仅 0.31M (Kinetix) 和 32M (LIBERO),推理开销极小
Card 04 方法描述

方法描述

  • 两阶段训练流程:先训练基础策略 π,再用基础策略输出构建校正数据集训练 π_a2c2
  • 校正头输入:最新观测 o_{t+k}、基础动作 a^{base}_{t+k}、时序特征 τₖ、基础策略表征 z_{t+k}、语言指令 l
  • 残差学习:预测残差动作 Δa_{t+k},与基础动作相加得到执行动作 a^{exec}_{t+k} = a^{base}_{t+k} + Δa_{t+k}
  • 架构设计:Kinetix 使用 3层 MLP (512隐藏单元);LIBERO 使用 6层 Transformer 编码器 + 3层 MLP
  • 正弦位置编码τₖ = (sin(2πk/H), cos(2πk/H)) 提供块内位置的周期性结构
Card 05 数据集与资源

数据集与资源

  • Kinetix:12个动态任务,每任务100万步专家数据,状态维度2722,动作维度6
  • LIBERO Spatial:10个空间推理任务,432条演示,52,970帧,包含顶部/腕部RGB图像 (256×256)、8维状态、语言指令
  • 基础模型:Kinetix 使用流匹配策略;LIBERO 使用 SmolVLA (450M参数)
  • 训练资源:使用 AdamW 优化器,Kinetix 批次大小512,LIBERO 批次大小64
  • 开源代码:https://github.com/k1000dai/a2c2-kinetix 和 https://github.com/k1000dai/a2c2-libero
Card 06 评估与结果

评估与结果

  • Kinetix 评估:2048次 rollout/任务,测试延迟 d∈{0,1,2,3,4} 和执行时域 e∈{1,...,8} 的组合

- d=4 时,A2C2 比朴素异步提升 ~35%,比 RTC 提升 ~23%

- 长时域 H=7 时,成功率保持 85% 以上

  • LIBERO Spatial 评估:10任务×10 rollout (初步),50 rollout/任务 (精确评估)

- H=40, d=10 时,A2C2 成功率 84.2% vs 朴素 64.4%

- H=50, d=0 时,A2C2 成功率 81.6% vs 朴素 72.2%

  • 关键指标:任务成功率 (Success Rate)
  • 对比基线:Naïve async (朴素异步)、RTC (Real Time Chunking)