一眼看懂
封面预览
提出一种基于离散扩散和视觉-语言-动作(VLA) 框架的新型智能体建模方法,用于机器人手术中外科医生特定行为的预测。
- 提出一种基于离散扩散和视觉-语言-动作(VLA) 框架的新型智能体建模方法,用于机器人手术中外科医生特定行为的预测。
- 旨在解决现有外科AI系统忽视个体行为差异的问题,实现个性化手势序列生成,并量化个性化带来的隐私风险。
- 核心创新是将手势预测建模为结构化序列去噪任务,并融入外科医生的行为指纹。
Card 01
研究单位
研究单位
- Cedars-Sinai Medical Center
Card 02
论文概述
论文概述
- 提出一种基于离散扩散和视觉-语言-动作(VLA) 框架的新型智能体建模方法,用于机器人手术中外科医生特定行为的预测。
- 旨在解决现有外科AI系统忽视个体行为差异的问题,实现个性化手势序列生成,并量化个性化带来的隐私风险。
- 核心创新是将手势预测建模为结构化序列去噪任务,并融入外科医生的行为指纹。
Card 03
核心贡献
核心贡献
- 提出一种基于扩散模型的公式,用于机器人手术中的个性化离散手势预测。
- 设计了一种基于语言模型的嵌入方案,通过自然语言提示利用第三方大型语言模型(LLM)编码外科医生身份和技能信息。
- 通过成员推理攻击进行量化隐私分析,以评估身份泄露风险,揭示了个性化与隐私之间的权衡。
- 在 JIGSAWS 数据集上进行了全面实验,展示了个性化手势生成的性能提升及其伴随的隐私风险。
Card 04
方法描述
方法描述
- 采用离散扩散模型,将手势序列预测表述为一个结构化的去噪过程。
- 正向过程通过多项式噪声逐步破坏真实手势序列;反向过程通过一个Transformer模型进行个性化去噪重建。
- 创新性地使用多模态条件:视觉特征(ResNet)、语言特征(BERT)、时间步嵌入以及外科医生嵌入。
- 外科医生嵌入通过将医生ID和技能评分(GRS)编码为自然语言提示,并使用冻结的第三方LLM(如Sentence-BERT)生成,实现了在保护隐私前提下的行为个性化。
Card 05
数据集与资源
数据集与资源
- 使用的数据集:JIGSAWS(JHU-ISI Gesture and Skill Assessment Working Set)。
- 模型规模:隐藏层维度为512,使用ResNet和BERT进行特征提取。
- 训练资源:使用Adam优化器,学习率1e-3,批次大小32,训练20个轮次。
Card 06
评估与结果
评估与结果
- 评估基准:在 JIGSAWS 数据集的缝合任务上,对比三种外科医生表示策略。
- 主要评估指标:手势预测的 Top-1 Accuracy、Top-5 Accuracy、Weighted F1-Score;隐私评估的 AUC、Accuracy、Precision、Recall 和 F1 Score。
- 关键实验结果:
- 在预测性能上,第三方LLM(ID + GRS) 策略取得最佳结果(Top-1准确率83.89%,F1-Score 0.8447)。
- 在隐私风险评估中,第三方LLM(ID + GRS) 策略也最易受成员推理攻击(AUC=1.000),揭示了性能提升与隐私泄露风险之间的显著权衡。
- 学习到的外科医生嵌入能够反映有意义的行为差异,t-SNE可视化显示结合GRS信息的嵌入空间按技能水平更有序。