HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation

一眼看懂封面预览

研究 Vision-Language-Action (VLA) 模型在长程操作任务中失败的问题，尽管其在短程任务上表现优异

Card 01 研究单位

研究单位

Card 02 论文概述

研究 Vision-Language-Action (VLA) 模型在长程操作任务中失败的问题，尽管其在短程任务上表现优异
识别出三个执行循环缺陷：Memory Gap（跨阶段任务上下文丢失）、Verification Gap（执行前无动作验证）、Recovery Gap（无故障检测或回滚）
提出 HELM 框架，包含三个组件： Episodic Memory Module (EMM)、State Verifier (SV)、Harness Controller (HC)
在 LIBERO-LONG 上，HELM 将任务成功率从 58.4% 提升至 81.5%（+23.1 pp），而扩展上下文窗口仅提升 +5.4 pp

Card 03 核心贡献

发现 VLA 长程失败无法仅通过更长上下文窗口解决，证实失败是结构性的
提出完整的 HELM 框架，包含 EMM（CLIP 索引的关键帧检索）、SV（学习的前置执行失败预测器）、HC（回滚与重规划控制器）
SV 是核心学习贡献：一种内存条件化的前置执行失败预测器，在 12ms/step 推理延迟下表现优于规则验证器和集成不确定性方法
9 个基线的综合实验，包括 Oracle Memory、Long-context、Rule Verifier、Ensemble、LoRA、Reflexion 等
发布 LIBERO-Recovery 评估协议，用于故障恢复测试

Card 04 方法描述

EMM (Episodic Memory Module)：基于 CLIP ViT-B/32 嵌入的关键帧存储器，在子目标完成、检测到失败或每 20 步时写入，通过余弦相似度检索 top-3 相关帧
SV (State Verifier)：3 层 MLP [1024→512→256→1]，以内存增强的观察 $\hat{o}_t = [\phi(o_t); k_{top-1}]$、动作 $a_t$、子目标 $g_t$ 为输入，预测失败概率 $p_{fail}$
HC (Harness Controller)：维护子目标栈，在 $p_{fail} > \theta_v = 0.65$ 时触发回滚或重规划，最大恢复尝试次数 $R_{max}=3$

Card 05 数据集与资源

Card 06 评估与结果

- OpenVLA: 58.4%

- OpenVLA H=32: 63.8%（仅 +5.4 pp）

- HELM: 81.5%（+23.1 pp）

- Rule Verifier: +6.8 pp

- Ensemble (×5): +9.5 pp（5× 推理成本）

- SV: +8.4 pp（1× 推理成本）