提出 ReCAPA 框架，解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题

论文详情

ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures

2026-04-23 · 原文 · 翻译 · 2604.21232

提出 ReCAPA 框架，解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题通过分层预测校正机制在动作、子目标和轨迹三个层次提前调整偏差，防止错误传播引入新的评估指标量化错误传播和恢复过程，弥补传统成功率指标的不足

4 分钟读完 6 张阅读卡香港科技大学（广州）

一眼看懂封面预览

提出 ReCAPA 框架，解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题

提出 ReCAPA 框架，解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题
通过分层预测校正机制在动作、子目标和轨迹三个层次提前调整偏差，防止错误传播
引入新的评估指标量化错误传播和恢复过程，弥补传统成功率指标的不足

Card 01 研究单位

研究单位

香港科技大学（广州）
华南师范大学

Card 02 论文概述

论文概述

提出 ReCAPA 框架，解决 Vision–Language–Action (VLA) 系统在长时任务中因错误累积导致的级联失败问题
通过分层预测校正机制在动作、子目标和轨迹三个层次提前调整偏差，防止错误传播
引入新的评估指标量化错误传播和恢复过程，弥补传统成功率指标的不足

Card 03 核心贡献

核心贡献

提出 ReCAPA 框架，将多层预测表示与提示-轨迹分布对齐相结合，实现分层纠正
定义两个诊断指标：Error Propagation Rate (EPR) 和 Propagation Attenuation Coefficient (PAC)，量化长时推理中的错误传播与衰减
在多个具身智能基准上取得领先结果，在 VisualAgentBench 上提升 5.65%，MineDojo 上提升 9%，AI2-THOR 上提升 7%

Card 04 方法描述

方法描述

框架采用 Hierarchical Predictive Correction (HPCC) 模块，在动作、子目标和轨迹三层进行预测和对齐
使用 Sinkhorn-based Alignment 实现轨迹与提示的分布级全局对齐
使用 Score-field Alignment 学习校正梯度，提供细粒度的步骤级对齐
训练时通过预测损失和对齐损失联合优化动作生成器，推理时多层机制协同修正轨迹

Card 05 数据集与资源

数据集与资源

使用数据集：VisualAgentBench (OmniGibson, Minecraft), MineDojo, AI2-THOR
在 VisualAgentBench 和 AI2-THOR 上强调跨域迁移，预训练于 ProcTHOR 和 Behavior1K
模型使用 GPT-4o-mini 作为 LLM 提供任务分解，视觉编码器可替换为 MINECLIP 等专用模型

Card 06 评估与结果

评估与结果

评估基准：VisualAgentBench, MineDojo, AI2-THOR
主要指标：Success Rate (SR), Average Success Rate (AVG), F1, 以及新提出的 EPR 和 PAC
关键结果：在三个基准上均超越强基线，达到最低 EPR 和最高 PAC，表现出最快的错误衰减和恢复能力