返回列表 VLA / Vision-Language-Action 每日论文卡
Cortex 2.0: Grounding World Models in Real-World Industrial Deployment
提出了 Cortex 2.0 系统,一个将世界模型集成到视觉-语言-动作(VLA)框架中的工业机器人控制模型。

论文详情

Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

2026-04-22 · 原文 · 翻译 · 2604.20246

提出了 Cortex 2.0 系统,一个将世界模型集成到视觉-语言-动作(VLA)框架中的工业机器人控制模型。 核心目标是从反应式控制转向规划-行动模式,通过在视觉潜空间生成并评估未来轨迹,解决长时程工业任务中的失败累积问题。 解决了传统 VLA 模型在复杂、非结构化工业环境(如频繁遮挡、丰富接触操作)中可靠性不足的难题。

4 分钟读完 6 张阅读卡 论文作者所属机构为 Sereact GmbH(德国),一家专注于工业机器人部署的公司。
一眼看懂 封面预览

提出了 Cortex 2.0 系统,一个将世界模型集成到视觉-语言-动作(VLA)框架中的工业机器人控制模型。

  • 提出了 Cortex 2.0 系统,一个将世界模型集成到视觉-语言-动作(VLA)框架中的工业机器人控制模型。
  • 核心目标是从反应式控制转向规划-行动模式,通过在视觉潜空间生成并评估未来轨迹,解决长时程工业任务中的失败累积问题。
  • 解决了传统 VLA 模型在复杂、非结构化工业环境(如频繁遮挡、丰富接触操作)中可靠性不足的难题。
Card 01 研究单位

研究单位

  • 论文作者所属机构为 Sereact GmbH(德国),一家专注于工业机器人部署的公司。
Card 02 论文概述

论文概述

  • 提出了 Cortex 2.0 系统,一个将世界模型集成到视觉-语言-动作(VLA)框架中的工业机器人控制模型。
  • 核心目标是从反应式控制转向规划-行动模式,通过在视觉潜空间生成并评估未来轨迹,解决长时程工业任务中的失败累积问题。
  • 解决了传统 VLA 模型在复杂、非结构化工业环境(如频繁遮挡、丰富接触操作)中可靠性不足的难题。
Card 03 核心贡献

核心贡献

  • 提出了 世界模型增强的 VLA 架构,将视觉潜空间世界模型集成到 Cortex 模型中,实现 k 步前瞻规划。
  • 引入了 PRO(Process-Reward Operator) 多标准评分模块,用于评估候选轨迹的任务进展、风险概率和完成概率。
  • 实现了 跨具身规划,同一规划循环可无缝应用于单臂、双臂及人形机器人等不同硬件平台。
  • 在四个真实世界任务上进行了全面的基准评估,取得了最高成功率且无需人工干预。
Card 04 方法描述

方法描述

  • 采用四层分层设计:高层 VLM 编码场景;世界模型生成候选未来;PRO 模块评分与排序;基于流匹配的动作头执行最优轨迹。
  • PRO 模块是一个密集奖励模型,在视觉潜空间上预测进展、风险和终止信号,并组合成综合评分。
  • 世界模型使用流匹配技术,在潜空间学习动力学,可生成多个未来轨迹以供评估。
  • VLA 策略基于一个 2B 参数的 VLM,使用流匹配动作头生成动作块,并通过轻量级适配器实现跨平台部署。
Card 05 数据集与资源

数据集与资源

  • 使用了异构数据集,包括:超过 1000 万条真实仓库部署数据、约 40k 条远程操作数据、约 970k 条开源数据(如 Open X-Embodiment、BridgeData V2、DROID)及 约 20k 条合成数据。
  • 模型基于 2B-VLM backbone,具体参数量未明确说明;世界模型和策略联合训练。
  • 所有模型在等效的 200 GPU小时 计算预算下进行训练,以确保公平比较。
Card 06 评估与结果

评估与结果

  • 单臂拾取放置物品与垃圾分类螺丝分类鞋盒拆包 四个真实任务上进行了评估。
  • 基线模型包括 π0.5Diffusion PolicyRDT-2;评估协议记录需要人工干预的不可恢复状态。
  • Cortex 2.0 在所有任务上均取得最高成功率(接近 100%),且实现了 零人工干预,显著优于其他基线模型。