一眼看懂
封面预览
提出 Cosmos Policy,将从大规模预训练视频模型(Cosmos-Predict2-2B)微调为有效的机器人策略的简单方法
- 提出 Cosmos Policy,将从大规模预训练视频模型(Cosmos-Predict2-2B)微调为有效的机器人策略的简单方法
- 通过单一阶段的演示数据后训练完成,无需对基础模型进行任何架构修改
- 模型能够同时生成机器人动作、未来状态图像和状态价值预测,实现测试时的基于模型的规划
Card 01
研究单位
研究单位
- NVIDIA - 主要研究机构
- Stanford University - 合作机构,多位作者隶属于此
- 作者团队:Moo Jin Kim、Yihuai Gao、Tsung-Yi Lin、Yen-Chen Lin、Yunhao Ge、Grace Lam、Percy Liang、Shuran Song、Ming-Yu Liu、Chelsea Finn、Jinwei Gu
Card 02
论文概述
论文概述
- 提出 Cosmos Policy,将从大规模预训练视频模型(Cosmos-Predict2-2B)微调为有效的机器人策略的简单方法
- 通过单一阶段的演示数据后训练完成,无需对基础模型进行任何架构修改
- 模型能够同时生成机器人动作、未来状态图像和状态价值预测,实现测试时的基于模型的规划
- 旨在解决现有视频模型适应方法需要多阶段训练和额外动作模块的复杂性问题
Card 03
核心贡献
核心贡献
- 潜在帧注入(Latent Frame Injection):将机器人本体感知、动作和价值等新模态编码为潜在帧,注入到视频模型的潜在扩散序列中,无需架构修改
- 策略、世界模型和价值函数的联合训练:通过统一的视频扩散学习目标,同时训练策略(生成动作)、世界模型(预测未来状态)和价值函数
- 基于模型的规划:利用学习到的世界模型和价值函数,通过 best-of-N 采样进行动作轨迹规划
- 从 rollout 经验中学习:收集策略部署的 rollout 数据,微调世界模型和价值函数以实现更准确的预测和更有效的规划
Card 04
方法描述
方法描述
- 基础模型:使用 Cosmos-Predict2-2B-Video2World 作为预训练视频生成模型
- 潜在空间处理:采用 Wan2.1 时空 VAE tokenizer 将视频序列压缩到潜在空间
- 训练目标:基于 EDM 去噪分数匹配 formulation,通过潜在扩散过程学习去噪
- 条件机制:通过交叉注意力机制 conditioning 在文本描述上,通过自适应层归一化 conditioning 在噪声水平上
- 推理策略:支持并行解码(用于直接策略执行)和自回归解码(用于基于规划的推理)
Card 05
数据集与资源
数据集与资源
- LIBERO 仿真基准:10 个任务,每个任务 50 个演示,共 500 个演示
- RoboCasa 仿真基准:24 个厨房操作任务,每个任务 50 个人类远程操作演示
- ALOHA 真实机器人:4 个双手操作任务("put X on plate"、"fold shirt"、"put candies in bowl"、"put candy in ziploc bag")
- 模型规模:Cosmos-Predict2-2B,约 20 亿参数
- 训练资源:使用多 GPU 进行训练和并行推理
Card 06
评估与结果
评估与结果
- LIBERO 基准:平均成功率 98.5%,超越所有现有方法(包括 π0.5、OpenVLA-OFT、CogVLA 等 VLA 模型)
- RoboCasa 基准:平均成功率 67.1%,使用仅 50 个演示(其他方法需 300+ 演示)
- ALOHA 真实机器人:最高平均得分 93.6%,优于 Diffusion Policy、π0.5 和 OpenVLA-OFT+
- 规划实验:在两个具有挑战性的真实世界任务中,使用基于模型的规划使平均分数提高 12.5 分
- 消融实验:移除辅助损失导致 1.5% 下降,从头训练导致 3.9% 下降,验证了视频模型预训练和辅助目标的重要性