论文针对长视野机器人操作任务中的“奖励工程瓶颈”，提出了优势奖励建模 (ARM) 框架

论文详情

ARM: Advantage Reward Modeling for Long-Horizon Manipulation

2026-04-03 · 原文 · 翻译 · 2604.03037

论文针对长视野机器人操作任务中的“奖励工程瓶颈”，提出了优势奖励建模 (ARM) 框架核心思想是从难以量化的绝对进度建模转向估计状态间的相对优势，以提供更稳定、直观的中间监督信号通过引入低成本的三态标注策略，解决了现有密集奖励标注成本高、难以处理非单调行为（如回溯、恢复）的问题

4 分钟读完 6 张阅读卡 LimX Dynamics

一眼看懂封面预览

论文针对长视野机器人操作任务中的“奖励工程瓶颈”，提出了优势奖励建模 (ARM) 框架

论文针对长视野机器人操作任务中的“奖励工程瓶颈”，提出了优势奖励建模 (ARM) 框架
核心思想是从难以量化的绝对进度建模转向估计状态间的相对优势，以提供更稳定、直观的中间监督信号
通过引入低成本的三态标注策略，解决了现有密集奖励标注成本高、难以处理非单调行为（如回溯、恢复）的问题

Card 01 研究单位

研究单位

LimX Dynamics
北京邮电大学
浙江大学

Card 02 论文概述

论文概述

论文针对长视野机器人操作任务中的“奖励工程瓶颈”，提出了 优势奖励建模 (ARM) 框架
核心思想是从难以量化的绝对进度建模转向估计状态间的相对优势，以提供更稳定、直观的中间监督信号
通过引入低成本的三态标注策略，解决了现有密集奖励标注成本高、难以处理非单调行为（如回溯、恢复）的问题

Card 03 核心贡献

核心贡献

提出任务无关、低认知负载的 三态标注策略，将状态转移分为 *进步*、*退步*、*停滞* 三类
开发基于 MIMO Transformer 的 优势奖励模型 (ARM)，融合视觉序列与本体感知状态以估计轨迹片段的相对进度增益
提出 优势加权行为克隆 (AW-BC) 算法，利用重建的密集进度信号对样本进行自适应重加权，有效过滤次优样本

Card 04 方法描述

方法描述

ARM 模型 采用 MIMO 架构，在因果窗口内并行处理历史观测序列，通过 CLIP 视觉特征、本体状态和任务指令的多模态融合进行序列建模
使用双头学习目标：多头优势分类头监督三态标签，任务完成头使用 Focal Loss 解决类不平衡问题
三态标注策略 简化了标注流程，仅需判断状态转移是进步、退步或停滞，降低了人工标注成本并提高一致性
全局进度重建 将离散的三态预测与任务完成锚点结合，积分生成全局一致的密集进度曲线
AW-BC 采用长度自适应增益公式，通过统计加权机制将原始增益转换为训练权重，最小化加权负对数似然损失

Card 05 数据集与资源

数据集与资源

数据集：包含 972 个毛巾折叠轨迹片段（总计 20 小时），其中 809 个专家演示，163 个 DAgger 增强片段
硬件：使用 AgileX ALOHA 双手遥操作系统进行数据收集
训练资源：推理测试使用 NVIDIA A100 GPU

Card 06 评估与结果

评估与结果

评估基准：与 SARM 模型进行对比，并在下游任务中与标准 BC 和 RA-BC 基线比较
主要评估指标：进度重建的均方误差 (MSE)、轨迹分类准确率、下游任务成功率、任务吞吐量、折叠精度
关键结果：
ARM 的 MSE 显著低于 SARM (0.0014 vs 0.0059)，且在成功和失败轨迹识别上达到 100% 准确率
在下游毛巾折叠任务中，AW-BC (GR00T + ARM) 达到 99.4% 的成功率，显著优于 BC 基线 (62.1%) 和 RA-BC (78.5%)
三态标注策略的人工标注效率比子任务分割提升 2.5 倍，自动化标注吞吐量超过 2,000 样本/8小时
ARM 的 MIMO 架构推理速度达 14.1 it/s，比 VLM 标注快 13.7 倍