返回列表 VLA / Vision-Language-Action 每日论文卡
HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation
研究 Vision-Language-Action (VLA) 模型在长程操作任务中失败的问题,尽管其在短程任务上表现优异

论文详情

HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation

2026-04-20 · 原文 · 翻译 · 2604.18791

研究 Vision-Language-Action (VLA) 模型在长程操作任务中失败的问题,尽管其在短程任务上表现优异 识别出三个执行循环缺陷:Memory Gap(跨阶段任务上下文丢失)、Verification Gap(执行前无动作验证)、Recovery Gap(无故障检测或回滚) 提出 HELM 框架,包含三个组件: Episodic Memory Module (EMM)、State Verifier…

6 分钟读完 6 张阅读卡 清华大学 (Zijian Zeng, Huiming Yang)
一眼看懂 封面预览

研究 Vision-Language-Action (VLA) 模型在长程操作任务中失败的问题,尽管其在短程任务上表现优异

  • 研究 Vision-Language-Action (VLA) 模型在长程操作任务中失败的问题,尽管其在短程任务上表现优异
  • 识别出三个执行循环缺陷:Memory Gap(跨阶段任务上下文丢失)、Verification Gap(执行前无动作验证)、Recovery…
  • 提出 HELM 框架,包含三个组件: Episodic Memory Module (EMM)、State Verifier (SV)、Har…
Card 01 研究单位

研究单位

  • 清华大学 (Zijian Zeng, Huiming Yang)
  • 阿里巴巴集团 (Fei Ding)
  • 蚌埠学院 (Xianwei Li)
Card 02 论文概述

论文概述

  • 研究 Vision-Language-Action (VLA) 模型在长程操作任务中失败的问题,尽管其在短程任务上表现优异
  • 识别出三个执行循环缺陷:Memory Gap(跨阶段任务上下文丢失)、Verification Gap(执行前无动作验证)、Recovery Gap(无故障检测或回滚)
  • 提出 HELM 框架,包含三个组件: Episodic Memory Module (EMM)、State Verifier (SV)、Harness Controller (HC)
  • 在 LIBERO-LONG 上,HELM 将任务成功率从 58.4% 提升至 81.5%(+23.1 pp),而扩展上下文窗口仅提升 +5.4 pp
Card 03 核心贡献

核心贡献

  • 发现 VLA 长程失败无法仅通过更长上下文窗口解决,证实失败是结构性的
  • 提出完整的 HELM 框架,包含 EMM(CLIP 索引的关键帧检索)、SV(学习的前置执行失败预测器)、HC(回滚与重规划控制器)
  • SV 是核心学习贡献:一种内存条件化的前置执行失败预测器,在 12ms/step 推理延迟下表现优于规则验证器和集成不确定性方法
  • 9 个基线的综合实验,包括 Oracle Memory、Long-context、Rule Verifier、Ensemble、LoRA、Reflexion 等
  • 发布 LIBERO-Recovery 评估协议,用于故障恢复测试
Card 04 方法描述

方法描述

  • EMM (Episodic Memory Module):基于 CLIP ViT-B/32 嵌入的关键帧存储器,在子目标完成、检测到失败或每 20 步时写入,通过余弦相似度检索 top-3 相关帧
  • SV (State Verifier):3 层 MLP [1024→512→256→1],以内存增强的观察 $\hat{o}_t = [\phi(o_t); k_{top-1}]$、动作 $a_t$、子目标 $g_t$ 为输入,预测失败概率 $p_{fail}$
  • HC (Harness Controller):维护子目标栈,在 $p_{fail} > \theta_v = 0.65$ 时触发回滚或重规划,最大恢复尝试次数 $R_{max}=3$
Card 05 数据集与资源

数据集与资源

  • LIBERO-LONG:10 个任务,平均 5-6 个子目标,500 个评估回合
  • CALVIN ABC→D:在未见环境中的平均完成链数(最多 5 个)
  • LIBERO-Recovery:新提出的扰动注入评估协议
  • 基础模型:OpenVLAOcto
  • SV 训练数据:50K VLA rollout 样本(约 2 小时单卡 A100 训练)
Card 06 评估与结果

评估与结果

  • LIBERO-LONG 任务成功率 (TSR)

- OpenVLA: 58.4%

- OpenVLA H=32: 63.8%(仅 +5.4 pp)

- HELM: 81.5%(+23.1 pp)

  • SV 与替代方法对比

- Rule Verifier: +6.8 pp

- Ensemble (×5): +9.5 pp(5× 推理成本)

- SV: +8.4 pp(1× 推理成本)

  • 消融实验:去除 EMM 降低 11.2 pp,去除 SV 降低 8.4 pp,SV 无内存上下文降低 6.1 pp
  • 模型无关性:HELM (Octo) 从 51.2% 提升至 72.8%(+21.6 pp),与 OpenVLA 上效果相似