SutureBot: A Precision Framework & Benchmark For Autonomous End-to-End Suturing

一眼看懂封面预览

论文提出了 SutureBot，一个在 da Vinci Research Kit (dVRK) 平台上实现的自主端到端缝合 benchmar…

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出了 SutureBot，一个在 da Vinci Research Kit (dVRK) 平台上实现的自主端到端缝合 benchmark，涵盖缝针拾取、组织穿入和打结三个子任务
研究目标是解决机器人缝合这一长时域精细操作任务，填补当前公开数据集规模不足（少于200条轨迹）的问题，并建立可重复评估的基准
核心贡献包括：发布最大规模的真实手术缝合数据集（1890条演示）、提出目标条件化框架以提升穿刺精度、评估多种先进 VLA 模型（π₀、GR00T N1、OpenVLA-OFT、ACT）

Card 03 核心贡献

构建了包含 1890 条高保真 dVRK 演示轨迹的最大公开缝合数据集，包含 454 条恢复演示（从失败状态恢复），并提供 3D 打印工具的 STL 文件
提出了 目标条件化（Goal-Conditioned）框架，通过在内镜图像上叠加不透明点标签（Point Label）作为目标条件，使策略能够实现精确的穿刺点定位
目标条件化方法将穿刺精度提升 59%-74%，插入误差降至 1.0 ± 1.3 mm（π₀ 模型）
对四种 SOTA VLA 模型进行了基准测试，发现 ACT 在任务成功率上表现最佳，完成了 3/10 次端到端缝合；π₀ 在精度上表现最优
建立了可重复的评估协议，使用 UV 标记测量实际缝合点与目标点的欧氏距离，量化精度指标

Card 04 方法描述

采用 分层架构：高级策略（基于 Swin Transformer）根据视觉观测预测当前子任务并生成语言指令；低级策略（VLA 模型）接收语言指令、图像和目标条件，输出连续的动作块
目标条件表示形式：点标签（Point Label）、二值掩码（Binary Mask）、距离图（Distance Map），实验表明点标签效果最佳
低级策略包括：

- π₀：基于预训练 VLM + 流匹配（flow-matching）动作专家

- GR00T N1：NVIDIA 的人形机器人基础模型

- OpenVLA-OFT：使用并行解码和 L1 回归

- ACT：语言条件化的 Action Chunking Transformer（无需预训练 VLM）

Card 05 数据集与资源

- 缝针拾取：628 条（148 条恢复）

- 缝针投掷：310 条（96 条恢复）

- 打结：952 条（210 条恢复）

Card 06 评估与结果

评估指标：各子任务成功率（Pickup/Throw/Pull Through/Knot Tie）、插入误差（Insertion Error）和出口误差（Exit Error，单位 mm）、总手术时间
关键结果：

- ACT 在端到端成功率最高（3/10），插入误差 1.5 ± 0.8 mm

- π₀ + Point Label 插入误差最低（1.0 ± 1.3 mm），但端到端成功率为 0/10

- GR00T N1 和 OpenVLA-OFT 表现较差，OpenVLA 完全失败