返回列表 VLA / Vision-Language-Action 每日论文卡
Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling
提出 Cosmos-H-Surgical,首个将外科世界模型与机器人策略学习相结合的框架,旨在解决外科机器人领域的数据稀缺问题

论文详情

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

2025-12-29 · 原文 · 翻译 · 2512.23162

提出 Cosmos-H-Surgical,首个将外科世界模型与机器人策略学习相结合的框架,旨在解决外科机器人领域的数据稀缺问题 通过构建 SATA (Surgical Action-Text Alignment) 数据集 并利用逆动力学模型从合成视频中生成伪运动学数据,使 VLA (视觉-语言-动作) 模型能够从无标签外科视频中学习 在真实外科机器人平台上验证方法,显著提升了缝合针拾取和交接任务的策略性能

6 分钟读完 6 张阅读卡 NVIDIA (主要研究机构)
一眼看懂 封面预览

提出 Cosmos-H-Surgical,首个将外科世界模型与机器人策略学习相结合的框架,旨在解决外科机器人领域的数据稀缺问题

  • 提出 Cosmos-H-Surgical,首个将外科世界模型与机器人策略学习相结合的框架,旨在解决外科机器人领域的数据稀缺问题
  • 通过构建 SATA (Surgical Action-Text Alignment) 数据集 并利用逆动力学模型从合成视频中生成伪运动学数据…
  • 在真实外科机器人平台上验证方法,显著提升了缝合针拾取和交接任务的策略性能
Card 01 研究单位

研究单位

  • NVIDIA (主要研究机构)
  • The Chinese University of Hong Kong (香港中文大学)
  • Sung Kyun Kwan University (成均馆大学)
  • Wenzhou Medical University (温州医科大学)
  • National University of Singapore (新加坡国立大学)
  • Ruijin Hospital (瑞金医院)
Card 02 论文概述

论文概述

  • 提出 Cosmos-H-Surgical,首个将外科世界模型与机器人策略学习相结合的框架,旨在解决外科机器人领域的数据稀缺问题
  • 通过构建 SATA (Surgical Action-Text Alignment) 数据集 并利用逆动力学模型从合成视频中生成伪运动学数据,使 VLA (视觉-语言-动作) 模型能够从无标签外科视频中学习
  • 在真实外科机器人平台上验证方法,显著提升了缝合针拾取和交接任务的策略性能
Card 03 核心贡献

核心贡献

  • 首次构建了 SATA 数据集,包含 2,447 个专家标注的视频片段(超过 30 万帧),涵盖 8 种手术类型和 4 种基础手术动作
  • 开发了首个基于最先进物理 AI 世界模型 (Cosmos-Predict2.5) 的外科世界模型,能够生成高质量、可泛化、逼真的外科手术视频
  • 首次利用 逆动力学模型 (IDM) 从合成外科视频中推断伪运动学数据,产生可训练的合成视频-动作对,显著提升下游策略训练效果
Card 04 方法描述

方法描述

  • 世界模型: 基于 Cosmos-Predict2.5 进行微调,采用 LoRA 参数高效微调方法,使用 Flow Matching (FM) 训练目标
  • 数据集构建: SATA 数据集包含四种手术动作——持针 (689)、穿刺 (989)、缝线牵拉 (475)、打结 (294),每段视频配有详细的空间关系和解剖结构描述
  • 逆动力学模型 (IDM): 参考 DreamGen 设计,输入两帧视频(间隔 16 帧),预测中间帧的机器人动作
  • 策略模型: 使用 GR00T N1.5 VLA 模型,结合真实数据和 IDM 生成的伪标签数据进行训练
Card 05 数据集与资源

数据集与资源

  • SATA 数据集: 2,447 个视频片段,30 万+ 帧,来自 YouTube 外科频道及多个公开数据集 (GraSP, SAR-RARP50, Multiypass140, SurgicalActions160, AutoLaparo, HeiCo)
  • 真实机器人数据: 60 个成功的远程操作演示(针拾取交接任务)+ 66 个域外 episode(约 6 万动作帧对)
  • 世界模型基础: Cosmos-Predict2.5 (大规模视频世界模型,预训练于多样机器人和具身数据)
  • 策略模型: GR00T N1.5 (NVIDIA 的 VLA 基础模型)
Card 06 评估与结果

评估与结果

  • 视频生成质量: 使用 FVD 和 VBench 指标评估,Cosmos-H-Surgical 达到最低 FVD (106.5) 和最高动态一致性 (62.4)
  • 少样本适应: 仅使用 5 条真实轨迹微调后,成功率达到 73.2%,优于零样本 (0%) 和直接微调 (51.8%)
  • 策略学习结果: 在 40 条测试数据上,使用合成数据增强的策略 (Real + Synthetic 10x) 比仅使用真实数据的策略 MSE 降低约 40-50%
  • 人类专家评估: 在文本-视频对齐、器械一致性、解剖结构三个维度上,Cosmos-H-Surgical 获得最高评分