一眼看懂
封面预览
论文提出了 SutureBot,一个在 da Vinci Research Kit (dVRK) 平台上实现的自主端到端缝合 benchmar…
- 论文提出了 SutureBot,一个在 da Vinci Research Kit (dVRK) 平台上实现的自主端到端缝合 benchmar…
- 研究目标是解决机器人缝合这一长时域精细操作任务,填补当前公开数据集规模不足(少于200条轨迹)的问题,并建立可重复评估的基准
- 核心贡献包括:发布最大规模的真实手术缝合数据集(1890条演示)、提出目标条件化框架以提升穿刺精度、评估多种先进 VLA 模型(π₀、GR00…
Card 01
研究单位
研究单位
- Johns Hopkins University(约翰霍普金斯大学)- 主要研究机构
- NVIDIA(英伟达)- 合作机构
- Stanford University(斯坦福大学)- 合作机构
- University of Toronto(多伦多大学)- 合作机构
Card 02
论文概述
论文概述
- 论文提出了 SutureBot,一个在 da Vinci Research Kit (dVRK) 平台上实现的自主端到端缝合 benchmark,涵盖缝针拾取、组织穿入和打结三个子任务
- 研究目标是解决机器人缝合这一长时域精细操作任务,填补当前公开数据集规模不足(少于200条轨迹)的问题,并建立可重复评估的基准
- 核心贡献包括:发布最大规模的真实手术缝合数据集(1890条演示)、提出目标条件化框架以提升穿刺精度、评估多种先进 VLA 模型(π₀、GR00T N1、OpenVLA-OFT、ACT)
Card 03
核心贡献
核心贡献
- 构建了包含 1890 条高保真 dVRK 演示轨迹的最大公开缝合数据集,包含 454 条恢复演示(从失败状态恢复),并提供 3D 打印工具的 STL 文件
- 提出了 目标条件化(Goal-Conditioned)框架,通过在内镜图像上叠加不透明点标签(Point Label)作为目标条件,使策略能够实现精确的穿刺点定位
- 目标条件化方法将穿刺精度提升 59%-74%,插入误差降至 1.0 ± 1.3 mm(π₀ 模型)
- 对四种 SOTA VLA 模型进行了基准测试,发现 ACT 在任务成功率上表现最佳,完成了 3/10 次端到端缝合;π₀ 在精度上表现最优
- 建立了可重复的评估协议,使用 UV 标记测量实际缝合点与目标点的欧氏距离,量化精度指标
Card 04
方法描述
方法描述
- 采用 分层架构:高级策略(基于 Swin Transformer)根据视觉观测预测当前子任务并生成语言指令;低级策略(VLA 模型)接收语言指令、图像和目标条件,输出连续的动作块
- 目标条件表示形式:点标签(Point Label)、二值掩码(Binary Mask)、距离图(Distance Map),实验表明点标签效果最佳
- 低级策略包括:
- π₀:基于预训练 VLM + 流匹配(flow-matching)动作专家
- GR00T N1:NVIDIA 的人形机器人基础模型
- OpenVLA-OFT:使用并行解码和 L1 回归
- ACT:语言条件化的 Action Chunking Transformer(无需预训练 VLM)
- 数据采集使用标准 dVRK 遥操作控制台,记录 30 Hz 同步的视觉和运动学数据(6-DOF 末端执行器姿态、夹爪开合角度、RCM 框架姿态等)
Card 05
数据集与资源
数据集与资源
- 数据集:SutureBot Dataset(1890 条轨迹)
- 缝针拾取:628 条(148 条恢复)
- 缝针投掷:310 条(96 条恢复)
- 打结:952 条(210 条恢复)
- 硬件平台:da Vinci Research Kit (dVRK) Si 版本
- 训练资源:NVIDIA DGX A100(8×A100 80 GB)
- 图像分辨率:腕部相机 640×480 @ 30 Hz;立体内镜 960×540 @ 30 Hz
Card 06
评估与结果
评估与结果
- 评估指标:各子任务成功率(Pickup/Throw/Pull Through/Knot Tie)、插入误差(Insertion Error)和出口误差(Exit Error,单位 mm)、总手术时间
- 关键结果:
- ACT 在端到端成功率最高(3/10),插入误差 1.5 ± 0.8 mm
- π₀ + Point Label 插入误差最低(1.0 ± 1.3 mm),但端到端成功率为 0/10
- GR00T N1 和 OpenVLA-OFT 表现较差,OpenVLA 完全失败
- 消融实验:目标条件化显著提升精度(Point Label 相比无目标条件:插入误差从 3.9 mm 降至 1.0 mm)
- 泛化性测试:在未见过的伤口类型(wound 2-6)上 π₀ 表现稳定,但光照和工具变化时性能显著下降
- 高级策略:F1 分数 0.92,任务转换检测 100% 准确率,与 Oracle(人工选择子任务)表现相近