一眼看懂
封面预览
论文提出 SOP(可扩展在线后训练系统),用于在物理世界中通过大规模真实世界交互对通用 VLA(视觉-语言-动作)模型进行在线、分布式、多任务…
- 论文提出 SOP(可扩展在线后训练系统),用于在物理世界中通过大规模真实世界交互对通用 VLA(视觉-语言-动作)模型进行在线、分布式、多任务…
- 研究问题:现有 VLA 后训练方法通常是离线的、单机器人的或任务特定的,缺乏有效的在线策略适应和可扩展的真实世界交互学习能力
- 核心目标:通过机器人车队与云端学习器的闭环架构,实现即时策略修正、并行数据收集扩展,并在适应过程中保持泛化能力
Card 01
研究单位
研究单位
- Agibot Research(主要研究机构)
- Shanghai Innovation Institute(合作机构)
Card 02
论文概述
论文概述
- 论文提出 SOP(可扩展在线后训练系统),用于在物理世界中通过大规模真实世界交互对通用 VLA(视觉-语言-动作)模型进行在线、分布式、多任务后训练
- 研究问题:现有 VLA 后训练方法通常是离线的、单机器人的或任务特定的,缺乏有效的在线策略适应和可扩展的真实世界交互学习能力
- 核心目标:通过机器人车队与云端学习器的闭环架构,实现即时策略修正、并行数据收集扩展,并在适应过程中保持泛化能力
Card 03
核心贡献
核心贡献
- 首次提出在物理世界中实现 VLA 模型在线、分布式、多任务后训练的框架
- 设计了闭环 actor-learner 架构,机器人车队持续流送策略上经验数据和人类干预信号到云端学习器,并异步接收更新后的策略
- 提出任务平衡的自适应采样策略,动态调整在线/离线数据混合比例
- 将 SOP 与两种后训练算法(HG-DAgger 和 RECAP)结合,展示了系统级改进效果
- 证明仅需数小时真实世界交互即可有效后训练大型 VLA 模型,性能随机器人数量近线性扩展
Card 04
方法描述
方法描述
- 算法框架:分布式 actor-learner 架构,机器人执行当前策略并上传轨迹(包括自主 rollout 和人类干预),云端学习器从在线和离线缓冲区采样训练 batch 并更新策略参数
- 系统基础设施:边缘客户端缓冲 episodes 并异步上传到云端对象存储;云端学习器通过发布-订阅通道以短间隔同步更新后的模型参数
- 自适应采样策略:维护滑动窗口估计的在线和离线损失,使用 softmax 公式动态计算在线采样比例 ω_on,平衡多任务覆盖和快速适应
- 后训练学习模块:支持即插即用的后训练算法,HG-DAgger 通过实时干预提供纠正监督,RECAP 结合奖励反馈和人类干预进行离线 RL 后训练
Card 05
数据集与资源
数据集与资源
- 实验平台:10 台 Agibot G1 双臂机械臂
- 任务设置:
- Grocery Restocking:500+ 物体的零售环境重货任务,4 个变体
- Laundry Folding:衣物折叠任务,双手操作
- Box Assembly:纸板组装任务,多步骤精确操作
- 训练资源:NVIDIA H100 GPU(10 actor 实验配置 8 GPU,其他实验 4 GPU)
- 训练预算:每实验 3 小时(180 分钟)墙钟时间
Card 06
评估与结果
评估与结果
- 评估指标:成功率(success rate)和吞吐量(throughput,每小时完成 episodes 数)
- 主要结果:
- SOP + HG-DAgger 达到最高成功率:Grocery Restocking 0.94,Laundry Folding 0.96,Box Assembly 0.98
- 相比离线方法,吞吐量提升约 2 倍
- 仅需 3 小时在线交互即可将成功率从 0.571 提升到 0.800
- 扩展性分析:
- 1→4 robot actor:最终成功率从 0.805 提升到 0.925
- 达到目标成功率(0.8)的时间:1 actor 173.6 分钟 → 4 actors 71.7 分钟(2.4 倍加速)
- 性能提升与机器人数量呈近线性关系
- 预训练质量影响:更大规模的预训练数据不仅带来更高的初始性能,还能收敛到更高的渐近性能