提出 Cosmos-H-Surgical，首个将外科世界模型与机器人策略学习相结合的框架，旨在解决外科机器人领域的数据稀缺问题

论文详情

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

2025-12-29 · 原文 · 翻译 · 2512.23162

提出 Cosmos-H-Surgical，首个将外科世界模型与机器人策略学习相结合的框架，旨在解决外科机器人领域的数据稀缺问题通过构建 SATA (Surgical Action-Text Alignment) 数据集并利用逆动力学模型从合成视频中生成伪运动学数据，使 VLA (视觉-语言-动作) 模型能够从无标签外科视频中学习在真实外科机器人平台上验证方法，显著提升了缝合针拾取和交接任务的策略性能

6 分钟读完 6 张阅读卡 NVIDIA (主要研究机构)

一眼看懂封面预览

提出 Cosmos-H-Surgical，首个将外科世界模型与机器人策略学习相结合的框架，旨在解决外科机器人领域的数据稀缺问题

提出 Cosmos-H-Surgical，首个将外科世界模型与机器人策略学习相结合的框架，旨在解决外科机器人领域的数据稀缺问题
通过构建 SATA (Surgical Action-Text Alignment) 数据集并利用逆动力学模型从合成视频中生成伪运动学数据…
在真实外科机器人平台上验证方法，显著提升了缝合针拾取和交接任务的策略性能

Card 01 研究单位

研究单位

NVIDIA (主要研究机构)
The Chinese University of Hong Kong (香港中文大学)
Sung Kyun Kwan University (成均馆大学)
Wenzhou Medical University (温州医科大学)
National University of Singapore (新加坡国立大学)
Ruijin Hospital (瑞金医院)

Card 02 论文概述

论文概述

提出 Cosmos-H-Surgical，首个将外科世界模型与机器人策略学习相结合的框架，旨在解决外科机器人领域的数据稀缺问题
通过构建 SATA (Surgical Action-Text Alignment) 数据集 并利用逆动力学模型从合成视频中生成伪运动学数据，使 VLA (视觉-语言-动作) 模型能够从无标签外科视频中学习
在真实外科机器人平台上验证方法，显著提升了缝合针拾取和交接任务的策略性能

Card 03 核心贡献

核心贡献

首次构建了 SATA 数据集，包含 2,447 个专家标注的视频片段（超过 30 万帧），涵盖 8 种手术类型和 4 种基础手术动作
开发了首个基于最先进物理 AI 世界模型 (Cosmos-Predict2.5) 的外科世界模型，能够生成高质量、可泛化、逼真的外科手术视频
首次利用 逆动力学模型 (IDM) 从合成外科视频中推断伪运动学数据，产生可训练的合成视频-动作对，显著提升下游策略训练效果

Card 04 方法描述

方法描述

世界模型: 基于 Cosmos-Predict2.5 进行微调，采用 LoRA 参数高效微调方法，使用 Flow Matching (FM) 训练目标
数据集构建: SATA 数据集包含四种手术动作——持针 (689)、穿刺 (989)、缝线牵拉 (475)、打结 (294)，每段视频配有详细的空间关系和解剖结构描述
逆动力学模型 (IDM): 参考 DreamGen 设计，输入两帧视频（间隔 16 帧），预测中间帧的机器人动作
策略模型: 使用 GR00T N1.5 VLA 模型，结合真实数据和 IDM 生成的伪标签数据进行训练

Card 05 数据集与资源

数据集与资源

SATA 数据集: 2,447 个视频片段，30 万+ 帧，来自 YouTube 外科频道及多个公开数据集 (GraSP, SAR-RARP50, Multiypass140, SurgicalActions160, AutoLaparo, HeiCo)
真实机器人数据: 60 个成功的远程操作演示（针拾取交接任务）+ 66 个域外 episode（约 6 万动作帧对）
世界模型基础: Cosmos-Predict2.5 (大规模视频世界模型，预训练于多样机器人和具身数据)
策略模型: GR00T N1.5 (NVIDIA 的 VLA 基础模型)

Card 06 评估与结果

评估与结果

视频生成质量: 使用 FVD 和 VBench 指标评估，Cosmos-H-Surgical 达到最低 FVD (106.5) 和最高动态一致性 (62.4)
少样本适应: 仅使用 5 条真实轨迹微调后，成功率达到 73.2%，优于零样本 (0%) 和直接微调 (51.8%)
策略学习结果: 在 40 条测试数据上，使用合成数据增强的策略 (Real + Synthetic 10x) 比仅使用真实数据的策略 MSE 降低约 40-50%
人类专家评估: 在文本-视频对齐、器械一致性、解剖结构三个维度上，Cosmos-H-Surgical 获得最高评分