Agentic Surgical AI: Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion in a Vision-Language-Action Framework

一眼看懂封面预览

提出一种基于离散扩散和视觉-语言-动作（VLA）框架的新型智能体建模方法，用于机器人手术中外科医生特定行为的预测。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

采用离散扩散模型，将手势序列预测表述为一个结构化的去噪过程。
正向过程通过多项式噪声逐步破坏真实手势序列；反向过程通过一个Transformer模型进行个性化去噪重建。
创新性地使用多模态条件：视觉特征（ResNet）、语言特征（BERT）、时间步嵌入以及外科医生嵌入。
外科医生嵌入通过将医生ID和技能评分（GRS）编码为自然语言提示，并使用冻结的第三方LLM（如Sentence-BERT）生成，实现了在保护隐私前提下的行为个性化。

Card 05 数据集与资源

Card 06 评估与结果

评估基准：在 JIGSAWS 数据集的缝合任务上，对比三种外科医生表示策略。
主要评估指标：手势预测的 Top-1 Accuracy、Top-5 Accuracy、Weighted F1-Score；隐私评估的 AUC、Accuracy、Precision、Recall 和 F1 Score。
关键实验结果：

- 在预测性能上，第三方LLM（ID + GRS） 策略取得最佳结果（Top-1准确率83.89%，F1-Score 0.8447）。

- 在隐私风险评估中，第三方LLM（ID + GRS） 策略也最易受成员推理攻击（AUC=1.000），揭示了性能提升与隐私泄露风险之间的显著权衡。

- 学习到的外科医生嵌入能够反映有意义的行为差异，t-SNE可视化显示结合GRS信息的嵌入空间按技能水平更有序。