返回列表 VLA / Vision-Language-Action 每日论文卡
SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
论文提出 SOP(可扩展在线后训练系统),用于在物理世界中通过大规模真实世界交互对通用 VLA(视觉-语言-动作)模型进行在线、分布式、多任务…

论文详情

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

2026-01-06 · 原文 · 翻译 · 2601.03044

论文提出 SOP(可扩展在线后训练系统),用于在物理世界中通过大规模真实世界交互对通用 VLA(视觉-语言-动作)模型进行在线、分布式、多任务后训练 研究问题:现有 VLA 后训练方法通常是离线的、单机器人的或任务特定的,缺乏有效的在线策略适应和可扩展的真实世界交互学习能力 核心目标:通过机器人车队与云端学习器的闭环架构,实现即时策略修正、并行数据收集扩展,并在适应过程中保持泛化能力

5 分钟读完 6 张阅读卡 Agibot Research(主要研究机构)
一眼看懂 封面预览

论文提出 SOP(可扩展在线后训练系统),用于在物理世界中通过大规模真实世界交互对通用 VLA(视觉-语言-动作)模型进行在线、分布式、多任务…

  • 论文提出 SOP(可扩展在线后训练系统),用于在物理世界中通过大规模真实世界交互对通用 VLA(视觉-语言-动作)模型进行在线、分布式、多任务…
  • 研究问题:现有 VLA 后训练方法通常是离线的、单机器人的或任务特定的,缺乏有效的在线策略适应和可扩展的真实世界交互学习能力
  • 核心目标:通过机器人车队与云端学习器的闭环架构,实现即时策略修正、并行数据收集扩展,并在适应过程中保持泛化能力
Card 01 研究单位

研究单位

  • Agibot Research(主要研究机构)
  • Shanghai Innovation Institute(合作机构)
Card 02 论文概述

论文概述

  • 论文提出 SOP(可扩展在线后训练系统),用于在物理世界中通过大规模真实世界交互对通用 VLA(视觉-语言-动作)模型进行在线、分布式、多任务后训练
  • 研究问题:现有 VLA 后训练方法通常是离线的、单机器人的或任务特定的,缺乏有效的在线策略适应和可扩展的真实世界交互学习能力
  • 核心目标:通过机器人车队与云端学习器的闭环架构,实现即时策略修正、并行数据收集扩展,并在适应过程中保持泛化能力
Card 03 核心贡献

核心贡献

  • 首次提出在物理世界中实现 VLA 模型在线、分布式、多任务后训练的框架
  • 设计了闭环 actor-learner 架构,机器人车队持续流送策略上经验数据和人类干预信号到云端学习器,并异步接收更新后的策略
  • 提出任务平衡的自适应采样策略,动态调整在线/离线数据混合比例
  • 将 SOP 与两种后训练算法(HG-DAgger 和 RECAP)结合,展示了系统级改进效果
  • 证明仅需数小时真实世界交互即可有效后训练大型 VLA 模型,性能随机器人数量近线性扩展
Card 04 方法描述

方法描述

  • 算法框架:分布式 actor-learner 架构,机器人执行当前策略并上传轨迹(包括自主 rollout 和人类干预),云端学习器从在线和离线缓冲区采样训练 batch 并更新策略参数
  • 系统基础设施:边缘客户端缓冲 episodes 并异步上传到云端对象存储;云端学习器通过发布-订阅通道以短间隔同步更新后的模型参数
  • 自适应采样策略:维护滑动窗口估计的在线和离线损失,使用 softmax 公式动态计算在线采样比例 ω_on,平衡多任务覆盖和快速适应
  • 后训练学习模块:支持即插即用的后训练算法,HG-DAgger 通过实时干预提供纠正监督,RECAP 结合奖励反馈和人类干预进行离线 RL 后训练
Card 05 数据集与资源

数据集与资源

  • 实验平台:10 台 Agibot G1 双臂机械臂
  • 任务设置

- Grocery Restocking:500+ 物体的零售环境重货任务,4 个变体

- Laundry Folding:衣物折叠任务,双手操作

- Box Assembly:纸板组装任务,多步骤精确操作

  • 训练资源:NVIDIA H100 GPU(10 actor 实验配置 8 GPU,其他实验 4 GPU)
  • 训练预算:每实验 3 小时(180 分钟)墙钟时间
Card 06 评估与结果

评估与结果

  • 评估指标:成功率(success rate)和吞吐量(throughput,每小时完成 episodes 数)
  • 主要结果

- SOP + HG-DAgger 达到最高成功率:Grocery Restocking 0.94,Laundry Folding 0.96,Box Assembly 0.98

- 相比离线方法,吞吐量提升约 2 倍

- 仅需 3 小时在线交互即可将成功率从 0.571 提升到 0.800

  • 扩展性分析

- 1→4 robot actor:最终成功率从 0.805 提升到 0.925

- 达到目标成功率(0.8)的时间:1 actor 173.6 分钟 → 4 actors 71.7 分钟(2.4 倍加速)

- 性能提升与机器人数量呈近线性关系

  • 预训练质量影响:更大规模的预训练数据不仅带来更高的初始性能,还能收敛到更高的渐近性能