返回列表 VLA / Vision-Language-Action 每日论文卡
SutureBot: A Precision Framework & Benchmark For Autonomous End-to-End Suturing
论文提出了 SutureBot,一个在 da Vinci Research Kit (dVRK) 平台上实现的自主端到端缝合 benchmar…

论文详情

SutureBot: A Precision Framework & Benchmark For Autonomous End-to-End Suturing

2025-10-23 · 原文 · 翻译 · 2510.20965

论文提出了 SutureBot,一个在 da Vinci Research Kit (dVRK) 平台上实现的自主端到端缝合 benchmark,涵盖缝针拾取、组织穿入和打结三个子任务 研究目标是解决机器人缝合这一长时域精细操作任务,填补当前公开数据集规模不足(少于200条轨迹)的问题,并建立可重复评估的基准 核心贡献包括:发布最大规模的真实手术缝合数据集(1890条演示)、提出目标条件化框架以提升穿刺精度、评估多…

7 分钟读完 6 张阅读卡 Johns Hopkins University(约翰霍普金斯大学)- 主要研究机构
一眼看懂 封面预览

论文提出了 SutureBot,一个在 da Vinci Research Kit (dVRK) 平台上实现的自主端到端缝合 benchmar…

  • 论文提出了 SutureBot,一个在 da Vinci Research Kit (dVRK) 平台上实现的自主端到端缝合 benchmar…
  • 研究目标是解决机器人缝合这一长时域精细操作任务,填补当前公开数据集规模不足(少于200条轨迹)的问题,并建立可重复评估的基准
  • 核心贡献包括:发布最大规模的真实手术缝合数据集(1890条演示)、提出目标条件化框架以提升穿刺精度、评估多种先进 VLA 模型(π₀、GR00…
Card 01 研究单位

研究单位

  • Johns Hopkins University(约翰霍普金斯大学)- 主要研究机构
  • NVIDIA(英伟达)- 合作机构
  • Stanford University(斯坦福大学)- 合作机构
  • University of Toronto(多伦多大学)- 合作机构
Card 02 论文概述

论文概述

  • 论文提出了 SutureBot,一个在 da Vinci Research Kit (dVRK) 平台上实现的自主端到端缝合 benchmark,涵盖缝针拾取、组织穿入和打结三个子任务
  • 研究目标是解决机器人缝合这一长时域精细操作任务,填补当前公开数据集规模不足(少于200条轨迹)的问题,并建立可重复评估的基准
  • 核心贡献包括:发布最大规模的真实手术缝合数据集(1890条演示)、提出目标条件化框架以提升穿刺精度、评估多种先进 VLA 模型(π₀、GR00T N1、OpenVLA-OFT、ACT)
Card 03 核心贡献

核心贡献

  • 构建了包含 1890 条高保真 dVRK 演示轨迹的最大公开缝合数据集,包含 454 条恢复演示(从失败状态恢复),并提供 3D 打印工具的 STL 文件
  • 提出了 目标条件化(Goal-Conditioned)框架,通过在内镜图像上叠加不透明点标签(Point Label)作为目标条件,使策略能够实现精确的穿刺点定位
  • 目标条件化方法将穿刺精度提升 59%-74%,插入误差降至 1.0 ± 1.3 mm(π₀ 模型)
  • 对四种 SOTA VLA 模型进行了基准测试,发现 ACT 在任务成功率上表现最佳,完成了 3/10 次端到端缝合;π₀ 在精度上表现最优
  • 建立了可重复的评估协议,使用 UV 标记测量实际缝合点与目标点的欧氏距离,量化精度指标
Card 04 方法描述

方法描述

  • 采用 分层架构:高级策略(基于 Swin Transformer)根据视觉观测预测当前子任务并生成语言指令;低级策略(VLA 模型)接收语言指令、图像和目标条件,输出连续的动作块
  • 目标条件表示形式:点标签(Point Label)、二值掩码(Binary Mask)、距离图(Distance Map),实验表明点标签效果最佳
  • 低级策略包括:

- π₀:基于预训练 VLM + 流匹配(flow-matching)动作专家

- GR00T N1:NVIDIA 的人形机器人基础模型

- OpenVLA-OFT:使用并行解码和 L1 回归

- ACT:语言条件化的 Action Chunking Transformer(无需预训练 VLM)

  • 数据采集使用标准 dVRK 遥操作控制台,记录 30 Hz 同步的视觉和运动学数据(6-DOF 末端执行器姿态、夹爪开合角度、RCM 框架姿态等)
Card 05 数据集与资源

数据集与资源

  • 数据集:SutureBot Dataset(1890 条轨迹)

- 缝针拾取:628 条(148 条恢复)

- 缝针投掷:310 条(96 条恢复)

- 打结:952 条(210 条恢复)

  • 硬件平台:da Vinci Research Kit (dVRK) Si 版本
  • 训练资源:NVIDIA DGX A100(8×A100 80 GB)
  • 图像分辨率:腕部相机 640×480 @ 30 Hz;立体内镜 960×540 @ 30 Hz
Card 06 评估与结果

评估与结果

  • 评估指标:各子任务成功率(Pickup/Throw/Pull Through/Knot Tie)、插入误差(Insertion Error)和出口误差(Exit Error,单位 mm)、总手术时间
  • 关键结果

- ACT 在端到端成功率最高(3/10),插入误差 1.5 ± 0.8 mm

- π₀ + Point Label 插入误差最低(1.0 ± 1.3 mm),但端到端成功率为 0/10

- GR00T N1 和 OpenVLA-OFT 表现较差,OpenVLA 完全失败

  • 消融实验:目标条件化显著提升精度(Point Label 相比无目标条件:插入误差从 3.9 mm 降至 1.0 mm)
  • 泛化性测试:在未见过的伤口类型(wound 2-6)上 π₀ 表现稳定,但光照和工具变化时性能显著下降
  • 高级策略:F1 分数 0.92,任务转换检测 100% 准确率,与 Oracle(人工选择子任务)表现相近