一眼看懂
封面预览
提出了 Cortex 2.0 系统,一个将世界模型集成到视觉-语言-动作(VLA)框架中的工业机器人控制模型。
- 提出了 Cortex 2.0 系统,一个将世界模型集成到视觉-语言-动作(VLA)框架中的工业机器人控制模型。
- 核心目标是从反应式控制转向规划-行动模式,通过在视觉潜空间生成并评估未来轨迹,解决长时程工业任务中的失败累积问题。
- 解决了传统 VLA 模型在复杂、非结构化工业环境(如频繁遮挡、丰富接触操作)中可靠性不足的难题。
Card 01
研究单位
研究单位
- 论文作者所属机构为 Sereact GmbH(德国),一家专注于工业机器人部署的公司。
Card 02
论文概述
论文概述
- 提出了 Cortex 2.0 系统,一个将世界模型集成到视觉-语言-动作(VLA)框架中的工业机器人控制模型。
- 核心目标是从反应式控制转向规划-行动模式,通过在视觉潜空间生成并评估未来轨迹,解决长时程工业任务中的失败累积问题。
- 解决了传统 VLA 模型在复杂、非结构化工业环境(如频繁遮挡、丰富接触操作)中可靠性不足的难题。
Card 03
核心贡献
核心贡献
- 提出了 世界模型增强的 VLA 架构,将视觉潜空间世界模型集成到 Cortex 模型中,实现 k 步前瞻规划。
- 引入了 PRO(Process-Reward Operator) 多标准评分模块,用于评估候选轨迹的任务进展、风险概率和完成概率。
- 实现了 跨具身规划,同一规划循环可无缝应用于单臂、双臂及人形机器人等不同硬件平台。
- 在四个真实世界任务上进行了全面的基准评估,取得了最高成功率且无需人工干预。
Card 04
方法描述
方法描述
- 采用四层分层设计:高层 VLM 编码场景;世界模型生成候选未来;PRO 模块评分与排序;基于流匹配的动作头执行最优轨迹。
- PRO 模块是一个密集奖励模型,在视觉潜空间上预测进展、风险和终止信号,并组合成综合评分。
- 世界模型使用流匹配技术,在潜空间学习动力学,可生成多个未来轨迹以供评估。
- VLA 策略基于一个 2B 参数的 VLM,使用流匹配动作头生成动作块,并通过轻量级适配器实现跨平台部署。
Card 05
数据集与资源
数据集与资源
- 使用了异构数据集,包括:超过 1000 万条真实仓库部署数据、约 40k 条远程操作数据、约 970k 条开源数据(如 Open X-Embodiment、BridgeData V2、DROID)及 约 20k 条合成数据。
- 模型基于 2B-VLM backbone,具体参数量未明确说明;世界模型和策略联合训练。
- 所有模型在等效的 200 GPU小时 计算预算下进行训练,以确保公平比较。
Card 06
评估与结果
评估与结果
- 在 单臂拾取放置、物品与垃圾分类、螺丝分类 和 鞋盒拆包 四个真实任务上进行了评估。
- 基线模型包括 π0.5、Diffusion Policy 和 RDT-2;评估协议记录需要人工干预的不可恢复状态。
- Cortex 2.0 在所有任务上均取得最高成功率(接近 100%),且实现了 零人工干预,显著优于其他基线模型。