论文提出 SOP（可扩展在线后训练系统），用于在物理世界中通过大规模真实世界交互对通用 VLA（视觉-语言-动作）模型进行在线、分布式、多任务…

论文详情

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

2026-01-06 · 原文 · 翻译 · 2601.03044

论文提出 SOP（可扩展在线后训练系统），用于在物理世界中通过大规模真实世界交互对通用 VLA（视觉-语言-动作）模型进行在线、分布式、多任务后训练研究问题：现有 VLA 后训练方法通常是离线的、单机器人的或任务特定的，缺乏有效的在线策略适应和可扩展的真实世界交互学习能力核心目标：通过机器人车队与云端学习器的闭环架构，实现即时策略修正、并行数据收集扩展，并在适应过程中保持泛化能力

5 分钟读完 6 张阅读卡 Agibot Research（主要研究机构）

一眼看懂封面预览

论文提出 SOP（可扩展在线后训练系统），用于在物理世界中通过大规模真实世界交互对通用 VLA（视觉-语言-动作）模型进行在线、分布式、多任务…

论文提出 SOP（可扩展在线后训练系统），用于在物理世界中通过大规模真实世界交互对通用 VLA（视觉-语言-动作）模型进行在线、分布式、多任务…
研究问题：现有 VLA 后训练方法通常是离线的、单机器人的或任务特定的，缺乏有效的在线策略适应和可扩展的真实世界交互学习能力
核心目标：通过机器人车队与云端学习器的闭环架构，实现即时策略修正、并行数据收集扩展，并在适应过程中保持泛化能力

Card 01 研究单位

研究单位

Agibot Research（主要研究机构）
Shanghai Innovation Institute（合作机构）

Card 02 论文概述

论文概述

论文提出 SOP（可扩展在线后训练系统），用于在物理世界中通过大规模真实世界交互对通用 VLA（视觉-语言-动作）模型进行在线、分布式、多任务后训练
研究问题：现有 VLA 后训练方法通常是离线的、单机器人的或任务特定的，缺乏有效的在线策略适应和可扩展的真实世界交互学习能力
核心目标：通过机器人车队与云端学习器的闭环架构，实现即时策略修正、并行数据收集扩展，并在适应过程中保持泛化能力

Card 03 核心贡献

核心贡献

首次提出在物理世界中实现 VLA 模型在线、分布式、多任务后训练的框架
设计了闭环 actor-learner 架构，机器人车队持续流送策略上经验数据和人类干预信号到云端学习器，并异步接收更新后的策略
提出任务平衡的自适应采样策略，动态调整在线/离线数据混合比例
将 SOP 与两种后训练算法（HG-DAgger 和 RECAP）结合，展示了系统级改进效果
证明仅需数小时真实世界交互即可有效后训练大型 VLA 模型，性能随机器人数量近线性扩展

Card 04 方法描述

方法描述

算法框架：分布式 actor-learner 架构，机器人执行当前策略并上传轨迹（包括自主 rollout 和人类干预），云端学习器从在线和离线缓冲区采样训练 batch 并更新策略参数
系统基础设施：边缘客户端缓冲 episodes 并异步上传到云端对象存储；云端学习器通过发布-订阅通道以短间隔同步更新后的模型参数
自适应采样策略：维护滑动窗口估计的在线和离线损失，使用 softmax 公式动态计算在线采样比例 ω_on，平衡多任务覆盖和快速适应
后训练学习模块：支持即插即用的后训练算法，HG-DAgger 通过实时干预提供纠正监督，RECAP 结合奖励反馈和人类干预进行离线 RL 后训练

Card 05 数据集与资源

数据集与资源

实验平台：10 台 Agibot G1 双臂机械臂
任务设置：

- Grocery Restocking：500+ 物体的零售环境重货任务，4 个变体

- Laundry Folding：衣物折叠任务，双手操作

- Box Assembly：纸板组装任务，多步骤精确操作

训练资源：NVIDIA H100 GPU（10 actor 实验配置 8 GPU，其他实验 4 GPU）
训练预算：每实验 3 小时（180 分钟）墙钟时间

Card 06 评估与结果

评估与结果

评估指标：成功率（success rate）和吞吐量（throughput，每小时完成 episodes 数）
主要结果：

- SOP + HG-DAgger 达到最高成功率：Grocery Restocking 0.94，Laundry Folding 0.96，Box Assembly 0.98

- 相比离线方法，吞吐量提升约 2 倍

- 仅需 3 小时在线交互即可将成功率从 0.571 提升到 0.800

扩展性分析：

- 1→4 robot actor：最终成功率从 0.805 提升到 0.925

- 达到目标成功率（0.8）的时间：1 actor 173.6 分钟 → 4 actors 71.7 分钟（2.4 倍加速）

- 性能提升与机器人数量呈近线性关系

预训练质量影响：更大规模的预训练数据不仅带来更高的初始性能，还能收敛到更高的渐近性能