返回列表 VLA / Vision-Language-Action 每日论文卡
AffordTissue: Dense Affordance Prediction for Tool-Action Specific Tissue Interaction
论文提出了 AffordTissue,一个多模态框架,用于在胆囊切除术中预测工具-动作特定的组织可供性区域,以密集热图形式呈现

论文详情

AffordTissue: Dense Affordance Prediction for Tool-Action Specific Tissue Interaction

2026-04-01 · 原文 · 翻译 · 2604.01371

论文提出了 AffordTissue,一个多模态框架,用于在胆囊切除术中预测工具-动作特定的组织可供性区域,以密集热图形式呈现 解决了当前手术自动化方法在器械与组织表面交互位置预测性不足、缺乏显式条件输入来强制安全交互区域的问题 目标是为安全手术自动化提供显式的空间推理,实现策略引导和安全停止机制

4 分钟读完 6 张阅读卡 Johns Hopkins University, Baltimore MD, USA
一眼看懂 封面预览

论文提出了 AffordTissue,一个多模态框架,用于在胆囊切除术中预测工具-动作特定的组织可供性区域,以密集热图形式呈现

  • 论文提出了 AffordTissue,一个多模态框架,用于在胆囊切除术中预测工具-动作特定的组织可供性区域,以密集热图形式呈现
  • 解决了当前手术自动化方法在器械与组织表面交互位置预测性不足、缺乏显式条件输入来强制安全交互区域的问题
  • 目标是为安全手术自动化提供显式的空间推理,实现策略引导和安全停止机制
Card 01 研究单位

研究单位

  • Johns Hopkins University, Baltimore MD, USA
Card 02 论文概述

论文概述

  • 论文提出了 AffordTissue,一个多模态框架,用于在胆囊切除术中预测工具-动作特定的组织可供性区域,以密集热图形式呈现
  • 解决了当前手术自动化方法在器械与组织表面交互位置预测性不足、缺乏显式条件输入来强制安全交互区域的问题
  • 目标是为安全手术自动化提供显式的空间推理,实现策略引导和安全停止机制
Card 03 核心贡献

核心贡献

  • 引入密集组织可供性预测作为新任务,提供关于工具-动作特定可供性区域的显式空间推理
  • 提出多模态架构,生成工具-动作条件化的可供性热图,用于动作引导和安全验证
  • 整理和标注103个胆囊切除术视频,建立了首个组织可供性基准数据集
  • 结合时序视觉编码器、语言条件化和DiT风格解码器,实现密集热图预测
  • 相比VLM基线模型有显著提升(ASSD为20.6像素 vs. Molmo-VLM的60.2像素)
Card 04 方法描述

方法描述

  • 使用 SigLIP 2 作为语言编码器,嵌入包含手术三元组(手术类型、工具类型、动作类型)的文本提示
  • 使用 Video Swin Transformer 作为时序视频编码器,捕获跨多视角的时空视觉信息
  • 使用 AdaLN 解码器(源自DiT),针对密集热图预测任务进行适配,融合视觉和语言嵌入
  • 输入N=256帧(步长为8),约10.6秒的历史上下文,捕获工具运动和组织动态
  • 训练时冻结语言和视觉编码器,仅优化解码器参数
Card 05 数据集与资源

数据集与资源

  • 自建数据集包含 15,638 个视频片段,来自 103 个胆囊切除术视频
  • 数据来源:Youtube(21个)、Cholec-80(34个)、HeiChole(11个)、CHEC(8个)、SurgVU(29个)
  • 涵盖6种工具-动作对:分离-钩、分离-抓钳、分离-剪刀、抓持-抓钳、夹闭-夹闭器、剪切-剪刀
  • 每个案例手动标注4个关键点勾勒安全交互区域
  • 在单张 NVIDIA A100 GPU 上训练100个epoch
Card 06 评估与结果

评估与结果

  • 基线对比:Molmo-VLMSAM3Qwen-VLM(8B)
  • 评估指标:DICE分数、PCK@0.05、PCK@0.1、豪斯多夫距离(HD)、平均对称表面距离(ASSD)
  • 主要结果:ASSD为 20.557 px,PCK@0.05为 0.517,PCK@0.1为 0.667
  • 相比最强基线Molmo-VLM(ASSD 60.184 px),ASSD性能提升 192.76%
  • 消融实验验证了语言编码器、时序视觉编码器和AdaLN解码器的重要性