一眼看懂
封面预览
提出 ReCAPA 框架,解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题
- 提出 ReCAPA 框架,解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题
- 通过分层预测校正机制在动作、子目标和轨迹三个层次提前调整偏差,防止错误传播
- 引入新的评估指标量化错误传播和恢复过程,弥补传统成功率指标的不足
Card 01
研究单位
研究单位
- 香港科技大学(广州)
- 华南师范大学
Card 02
论文概述
论文概述
- 提出 ReCAPA 框架,解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题
- 通过分层预测校正机制在动作、子目标和轨迹三个层次提前调整偏差,防止错误传播
- 引入新的评估指标量化错误传播和恢复过程,弥补传统成功率指标的不足
Card 03
核心贡献
核心贡献
- 提出 ReCAPA 框架,将多层预测表示与提示-轨迹分布对齐相结合,实现分层纠正
- 定义两个诊断指标:Error Propagation Rate (EPR) 和 Propagation Attenuation Coefficient (PAC),量化长时推理中的错误传播与衰减
- 在多个具身智能基准上取得领先结果,在 VisualAgentBench 上提升 5.65%,MineDojo 上提升 9%,AI2-THOR 上提升 7%
Card 04
方法描述
方法描述
- 框架采用 Hierarchical Predictive Correction (HPCC) 模块,在动作、子目标和轨迹三层进行预测和对齐
- 使用 Sinkhorn-based Alignment 实现轨迹与提示的分布级全局对齐
- 使用 Score-field Alignment 学习校正梯度,提供细粒度的步骤级对齐
- 训练时通过预测损失和对齐损失联合优化动作生成器,推理时多层机制协同修正轨迹
Card 05
数据集与资源
数据集与资源
- 使用数据集:VisualAgentBench (OmniGibson, Minecraft), MineDojo, AI2-THOR
- 在 VisualAgentBench 和 AI2-THOR 上强调跨域迁移,预训练于 ProcTHOR 和 Behavior1K
- 模型使用 GPT-4o-mini 作为 LLM 提供任务分解,视觉编码器可替换为 MINECLIP 等专用模型
Card 06
评估与结果
评估与结果
- 评估基准:VisualAgentBench, MineDojo, AI2-THOR
- 主要指标:Success Rate (SR), Average Success Rate (AVG), F1, 以及新提出的 EPR 和 PAC
- 关键结果:在三个基准上均超越强基线,达到最低 EPR 和最高 PAC,表现出最快的错误衰减和恢复能力