返回列表 VLA / Vision-Language-Action 每日论文卡
Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics
论文介绍了 Open-H-Embodiment,这是迄今为止最大的开放医疗机器人视频与同步运动学数据集,旨在解决医疗机器人领域长期存在的数据瓶…

论文详情

Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics

2026-04-22 · 原文 · 翻译 · 2604.21017

论文介绍了 Open-H-Embodiment,这是迄今为止最大的开放医疗机器人视频与同步运动学数据集,旨在解决医疗机器人领域长期存在的数据瓶颈问题。 数据集涵盖了 49个机构 和 20个不同的机器人平台,包括手术机器人、工业机械臂、柔性内窥镜机器人、模拟机器人及手动器械,覆盖了手术操作、机器人超声和内窥镜程序等多种任务。 研究目标是通过构建大规模、跨平台、多模态数据集,为医疗机器人领域基础模型的开发提供关键基础设…

9 分钟读完 6 张阅读卡 主要研究机构包括 NVIDIA、Johns Hopkins University、Technical…
一眼看懂 封面预览

论文介绍了 Open-H-Embodiment,这是迄今为止最大的开放医疗机器人视频与同步运动学数据集,旨在解决医疗机器人领域长期存在的数据瓶…

  • 论文介绍了 Open-H-Embodiment,这是迄今为止最大的开放医疗机器人视频与同步运动学数据集,旨在解决医疗机器人领域长期存在的数据瓶…
  • 数据集涵盖了 49个机构 和 20个不同的机器人平台,包括手术机器人、工业机械臂、柔性内窥镜机器人、模拟机器人及手动器械,覆盖了手术操作、机器…
  • 研究目标是通过构建大规模、跨平台、多模态数据集,为医疗机器人领域基础模型的开发提供关键基础设施,从而推动机器人学习、世界建模等领域的进步。
Card 01 研究单位

研究单位

  • 主要研究机构包括 NVIDIAJohns Hopkins UniversityTechnical University of MunichStanford UniversityUniversity of TurinVanderbilt UniversityThe University of Texas at AustinBalgrist University HospitalETH ZurichUniversity of California San DiegoSano Centre for Computational MedicineCMR SurgicalUniversity of British ColumbiaCeTI/TU DresdenGerman Cancer Research CenterUniversity of Illinois ChicagoUniversity of LeedsHong Kong Baptist UniversityUniversity of Science and Technology of ChinaThe Hong Kong Polytechnic UniversityThe Chinese University of Hong KongMulti-scale Medical Robotics CenterUniversity of California BerkeleySun Yat-Sen UniversityIcahn School of Medicine at Mount SinaiImperial College LondonSemaphor SurgicalPhysical IntelligenceMoon SurgicalÓbuda UniversityQilu Hospital of Shandong UniversityThe University of Hong KongColumbia UniversityGreat Bay UniversityWorcester Polytechnic Institute 等49个机构。
Card 02 论文概述

论文概述

  • 论文介绍了 Open-H-Embodiment,这是迄今为止最大的开放医疗机器人视频与同步运动学数据集,旨在解决医疗机器人领域长期存在的数据瓶颈问题。
  • 数据集涵盖了 49个机构20个不同的机器人平台,包括手术机器人、工业机械臂、柔性内窥镜机器人、模拟机器人及手动器械,覆盖了手术操作、机器人超声和内窥镜程序等多种任务。
  • 研究目标是通过构建大规模、跨平台、多模态数据集,为医疗机器人领域基础模型的开发提供关键基础设施,从而推动机器人学习、世界建模等领域的进步。
Card 03 核心贡献

核心贡献

  • 提出了 Open-H-Embodiment,首个大规模、跨平台、多模态的医疗与手术机器人数据集。
  • 开发了 GR00T-H,首个开放的医疗机器人基础视觉-语言-动作模型,在复杂手术任务上表现出卓越的成功率、数据效率及跨平台泛化能力。
  • 构建了 Cosmos-H-Surgical-Simulator (C-H-S-S),首个多平台、运动学动作条件的世界模型,可用于手术模拟、策略评估及合成数据生成。
Card 04 方法描述

方法描述

  • 数据集采用统一的 LeRobot v2.1 格式进行存储,将低维运动学数据存储于Parquet文件,视频观测存储为硬件加速的MP4格式,并提供了标准化文档以记录平台细节。
  • GR00T-H 模型基于预训练的 GR00T-N1.6-3B 视觉-语言-动作模型,在Open-H的601小时手术数据子集上进行后训练,采用相对末端执行器控制空间、平台特定的动作头及归一化策略。
  • Cosmos-H-Surgical-Simulator 基于 Cosmos-Predict 2.5 (一个2B参数的潜在视频扩散Transformer) 进行微调,在Open-H手术数据混合集上进行训练,接受单帧视频和运动学动作序列,自回归生成未来帧。
Card 05 数据集与资源

数据集与资源

  • 主要数据集为 Open-H-Embodiment,包含 770小时 的配对视频与运动学数据,共计 124,019个 演示片段。
  • 模型规模:GR00T-H 基于3B参数的模型;Cosmos-H-Surgical-Simulator 基于2B参数的模型。
  • 训练资源:GR00T-H 后训练使用全局批大小1024,进行65,000步全权重训练;Cosmos-H-Surgical-Simulator 微调使用64块 A100 80GB GPU,全局批大小1024,进行42,000步训练。
Card 06 评估与结果

评估与结果

  • 评估基准:主要使用 SutureBot 端到端缝合基准、离体缝合实验、以及多平台(dVRK-Si, CMR Versius, Virtual Incision MIRA)性能对比。
  • 主要指标:任务成功率、累积任务存活率、每帧 L1误差SSIM (结构相似性指数)
  • 关键结果:在端到端缝合任务中,GR00T-H 是唯一实现完整任务完成的模型(成功率25%),而其他模型均失败。在29步离体缝合序列中,GR00T-H 平均成功率达到64%。在多平台评估中,GR00T-H 在所有平台上显著优于基准模型。Cosmos-H-Surgical-Simulator 在生成视频帧上保持了合理的像素保真度(L1)和结构相似性(SSIM)。