Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics

一眼看懂封面预览

论文介绍了 Open-H-Embodiment，这是迄今为止最大的开放医疗机器人视频与同步运动学数据集，旨在解决医疗机器人领域长期存在的数据瓶…

Card 01 研究单位

研究单位

主要研究机构包括 NVIDIA、Johns Hopkins University、Technical University of Munich、Stanford University、University of Turin、Vanderbilt University、The University of Texas at Austin、Balgrist University Hospital、ETH Zurich、University of California San Diego、Sano Centre for Computational Medicine、CMR Surgical、University of British Columbia、CeTI/TU Dresden、German Cancer Research Center、University of Illinois Chicago、University of Leeds、Hong Kong Baptist University、University of Science and Technology of China、The Hong Kong Polytechnic University、The Chinese University of Hong Kong、Multi-scale Medical Robotics Center、University of California Berkeley、Sun Yat-Sen University、Icahn School of Medicine at Mount Sinai、Imperial College London、Semaphor Surgical、Physical Intelligence、Moon Surgical、Óbuda University、Qilu Hospital of Shandong University、The University of Hong Kong、Columbia University、Great Bay University、Worcester Polytechnic Institute 等49个机构。

Card 02 论文概述

论文介绍了 Open-H-Embodiment，这是迄今为止最大的开放医疗机器人视频与同步运动学数据集，旨在解决医疗机器人领域长期存在的数据瓶颈问题。
数据集涵盖了 49个机构 和 20个不同的机器人平台，包括手术机器人、工业机械臂、柔性内窥镜机器人、模拟机器人及手动器械，覆盖了手术操作、机器人超声和内窥镜程序等多种任务。
研究目标是通过构建大规模、跨平台、多模态数据集，为医疗机器人领域基础模型的开发提供关键基础设施，从而推动机器人学习、世界建模等领域的进步。

Card 03 核心贡献

提出了 Open-H-Embodiment，首个大规模、跨平台、多模态的医疗与手术机器人数据集。
开发了 GR00T-H，首个开放的医疗机器人基础视觉-语言-动作模型，在复杂手术任务上表现出卓越的成功率、数据效率及跨平台泛化能力。
构建了 Cosmos-H-Surgical-Simulator (C-H-S-S)，首个多平台、运动学动作条件的世界模型，可用于手术模拟、策略评估及合成数据生成。

Card 04 方法描述

数据集采用统一的 LeRobot v2.1 格式进行存储，将低维运动学数据存储于Parquet文件，视频观测存储为硬件加速的MP4格式，并提供了标准化文档以记录平台细节。
GR00T-H 模型基于预训练的 GR00T-N1.6-3B 视觉-语言-动作模型，在Open-H的601小时手术数据子集上进行后训练，采用相对末端执行器控制空间、平台特定的动作头及归一化策略。
Cosmos-H-Surgical-Simulator 基于 Cosmos-Predict 2.5 (一个2B参数的潜在视频扩散Transformer) 进行微调，在Open-H手术数据混合集上进行训练，接受单帧视频和运动学动作序列，自回归生成未来帧。

Card 05 数据集与资源

主要数据集为 Open-H-Embodiment，包含 770小时 的配对视频与运动学数据，共计 124,019个 演示片段。
模型规模：GR00T-H 基于3B参数的模型；Cosmos-H-Surgical-Simulator 基于2B参数的模型。
训练资源：GR00T-H 后训练使用全局批大小1024，进行65,000步全权重训练；Cosmos-H-Surgical-Simulator 微调使用64块 A100 80GB GPU，全局批大小1024，进行42,000步训练。

Card 06 评估与结果

评估基准：主要使用 SutureBot 端到端缝合基准、离体缝合实验、以及多平台（dVRK-Si, CMR Versius, Virtual Incision MIRA）性能对比。
主要指标：任务成功率、累积任务存活率、每帧 L1误差 和 SSIM (结构相似性指数)。
关键结果：在端到端缝合任务中，GR00T-H 是唯一实现完整任务完成的模型（成功率25%），而其他模型均失败。在29步离体缝合序列中，GR00T-H 平均成功率达到64%。在多平台评估中，GR00T-H 在所有平台上显著优于基准模型。Cosmos-H-Surgical-Simulator 在生成视频帧上保持了合理的像素保真度（L1）和结构相似性（SSIM）。