返回列表 VLA / Vision-Language-Action 每日论文卡
ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures
提出 ReCAPA 框架,解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题

论文详情

ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures

2026-04-23 · 原文 · 翻译 · 2604.21232

提出 ReCAPA 框架,解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题 通过分层预测校正机制在动作、子目标和轨迹三个层次提前调整偏差,防止错误传播 引入新的评估指标量化错误传播和恢复过程,弥补传统成功率指标的不足

4 分钟读完 6 张阅读卡 香港科技大学(广州)
一眼看懂 封面预览

提出 ReCAPA 框架,解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题

  • 提出 ReCAPA 框架,解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题
  • 通过分层预测校正机制在动作、子目标和轨迹三个层次提前调整偏差,防止错误传播
  • 引入新的评估指标量化错误传播和恢复过程,弥补传统成功率指标的不足
Card 01 研究单位

研究单位

  • 香港科技大学(广州)
  • 华南师范大学
Card 02 论文概述

论文概述

  • 提出 ReCAPA 框架,解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题
  • 通过分层预测校正机制在动作、子目标和轨迹三个层次提前调整偏差,防止错误传播
  • 引入新的评估指标量化错误传播和恢复过程,弥补传统成功率指标的不足
Card 03 核心贡献

核心贡献

  • 提出 ReCAPA 框架,将多层预测表示与提示-轨迹分布对齐相结合,实现分层纠正
  • 定义两个诊断指标:Error Propagation Rate (EPR)Propagation Attenuation Coefficient (PAC),量化长时推理中的错误传播与衰减
  • 在多个具身智能基准上取得领先结果,在 VisualAgentBench 上提升 5.65%,MineDojo 上提升 9%,AI2-THOR 上提升 7%
Card 04 方法描述

方法描述

  • 框架采用 Hierarchical Predictive Correction (HPCC) 模块,在动作、子目标和轨迹三层进行预测和对齐
  • 使用 Sinkhorn-based Alignment 实现轨迹与提示的分布级全局对齐
  • 使用 Score-field Alignment 学习校正梯度,提供细粒度的步骤级对齐
  • 训练时通过预测损失和对齐损失联合优化动作生成器,推理时多层机制协同修正轨迹
Card 05 数据集与资源

数据集与资源

  • 使用数据集:VisualAgentBench (OmniGibson, Minecraft), MineDojo, AI2-THOR
  • VisualAgentBenchAI2-THOR 上强调跨域迁移,预训练于 ProcTHORBehavior1K
  • 模型使用 GPT-4o-mini 作为 LLM 提供任务分解,视觉编码器可替换为 MINECLIP 等专用模型
Card 06 评估与结果

评估与结果

  • 评估基准:VisualAgentBench, MineDojo, AI2-THOR
  • 主要指标:Success Rate (SR), Average Success Rate (AVG), F1, 以及新提出的 EPRPAC
  • 关键结果:在三个基准上均超越强基线,达到最低 EPR 和最高 PAC,表现出最快的错误衰减和恢复能力