返回列表 VLA / Vision-Language-Action 每日论文卡
ARM: Advantage Reward Modeling for Long-Horizon Manipulation
论文针对长视野机器人操作任务中的“奖励工程瓶颈”,提出了 优势奖励建模 (ARM) 框架

论文详情

ARM: Advantage Reward Modeling for Long-Horizon Manipulation

2026-04-03 · 原文 · 翻译 · 2604.03037

论文针对长视野机器人操作任务中的“奖励工程瓶颈”,提出了 优势奖励建模 (ARM) 框架 核心思想是从难以量化的绝对进度建模转向估计状态间的相对优势,以提供更稳定、直观的中间监督信号 通过引入低成本的三态标注策略,解决了现有密集奖励标注成本高、难以处理非单调行为(如回溯、恢复)的问题

4 分钟读完 6 张阅读卡 LimX Dynamics
一眼看懂 封面预览

论文针对长视野机器人操作任务中的“奖励工程瓶颈”,提出了 优势奖励建模 (ARM) 框架

  • 论文针对长视野机器人操作任务中的“奖励工程瓶颈”,提出了 优势奖励建模 (ARM) 框架
  • 核心思想是从难以量化的绝对进度建模转向估计状态间的相对优势,以提供更稳定、直观的中间监督信号
  • 通过引入低成本的三态标注策略,解决了现有密集奖励标注成本高、难以处理非单调行为(如回溯、恢复)的问题
Card 01 研究单位

研究单位

  • LimX Dynamics
  • 北京邮电大学
  • 浙江大学
Card 02 论文概述

论文概述

  • 论文针对长视野机器人操作任务中的“奖励工程瓶颈”,提出了 优势奖励建模 (ARM) 框架
  • 核心思想是从难以量化的绝对进度建模转向估计状态间的相对优势,以提供更稳定、直观的中间监督信号
  • 通过引入低成本的三态标注策略,解决了现有密集奖励标注成本高、难以处理非单调行为(如回溯、恢复)的问题
Card 03 核心贡献

核心贡献

  • 提出任务无关、低认知负载的 三态标注策略,将状态转移分为 *进步*、*退步*、*停滞* 三类
  • 开发基于 MIMO Transformer 的 优势奖励模型 (ARM),融合视觉序列与本体感知状态以估计轨迹片段的相对进度增益
  • 提出 优势加权行为克隆 (AW-BC) 算法,利用重建的密集进度信号对样本进行自适应重加权,有效过滤次优样本
Card 04 方法描述

方法描述

  • ARM 模型 采用 MIMO 架构,在因果窗口内并行处理历史观测序列,通过 CLIP 视觉特征、本体状态和任务指令的多模态融合进行序列建模
  • 使用双头学习目标:多头优势分类头监督三态标签,任务完成头使用 Focal Loss 解决类不平衡问题
  • 三态标注策略 简化了标注流程,仅需判断状态转移是进步、退步或停滞,降低了人工标注成本并提高一致性
  • 全局进度重建 将离散的三态预测与任务完成锚点结合,积分生成全局一致的密集进度曲线
  • AW-BC 采用长度自适应增益公式,通过统计加权机制将原始增益转换为训练权重,最小化加权负对数似然损失
Card 05 数据集与资源

数据集与资源

  • 数据集:包含 972 个毛巾折叠轨迹片段(总计 20 小时),其中 809 个专家演示,163 个 DAgger 增强片段
  • 硬件:使用 AgileX ALOHA 双手遥操作系统进行数据收集
  • 训练资源:推理测试使用 NVIDIA A100 GPU
Card 06 评估与结果

评估与结果

  • 评估基准:与 SARM 模型进行对比,并在下游任务中与标准 BC 和 RA-BC 基线比较
  • 主要评估指标:进度重建的均方误差 (MSE)、轨迹分类准确率、下游任务成功率、任务吞吐量、折叠精度
  • 关键结果:
  • ARM 的 MSE 显著低于 SARM (0.0014 vs 0.0059),且在成功和失败轨迹识别上达到 100% 准确率
  • 在下游毛巾折叠任务中,AW-BC (GR00T + ARM) 达到 99.4% 的成功率,显著优于 BC 基线 (62.1%) 和 RA-BC (78.5%)
  • 三态标注策略的人工标注效率比子任务分割提升 2.5 倍,自动化标注吞吐量超过 2,000 样本/8小时
  • ARM 的 MIMO 架构推理速度达 14.1 it/s,比 VLM 标注快 13.7 倍