一眼看懂
封面预览
论文提出了 EndoVLA,一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作(VLA)模型。
- 论文提出了 EndoVLA,一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作(VLA)模型。
- 该模型旨在解决传统模块化流程在内窥镜动态环境中表现脆弱、泛化能力差以及现有 VLA 模型在胃肠道领域存在域差距的问题。
- EndoVLA 能够根据内窥镜图像和医生指令,自主执行息肉追踪、异常区域描绘与跟随以及环形标记 adherence 等核心任务。
Card 01
研究单位
研究单位
- The Chinese University of Hong Kong
- Technical University of Munich
Card 02
论文概述
论文概述
- 论文提出了 EndoVLA,一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作(VLA)模型。
- 该模型旨在解决传统模块化流程在内窥镜动态环境中表现脆弱、泛化能力差以及现有 VLA 模型在胃肠道领域存在域差距的问题。
- EndoVLA 能够根据内窥镜图像和医生指令,自主执行息肉追踪、异常区域描绘与跟随以及环形标记 adherence 等核心任务。
Card 03
核心贡献
核心贡献
- 提出了 EndoVLA,首个针对连续体内窥镜机器人定制的端到端 VLA 模型。
- 设计了 Dual-phase Fine-tuning (DFT) 策略,结合了监督微调(SFT)和基于任务感知奖励的强化微调(RFT)。
- 构建了 EndoVLA-Motion 数据集,包含视觉、语言和运动学数据,填补了该领域数据的空白。
- 实验证明该方法显著提升了内窥镜追踪性能,并在复杂序列任务中实现了零样本泛化。
Card 04
方法描述
方法描述
- 基于 Qwen2-VL 骨干网络构建,采用 LoRA 进行参数高效微调。
- 模型输入包括当前 RGB 观测图像和包含场景描述与运动指南的文本提示,输出为目标边界框和离散动作。
- 通过冻结视觉编码器和可训练的 MLP 投影器将视觉特征对齐到语言模型的嵌入空间。
- 在强化学习阶段,采用了 Group Relative Policy Optimization (GRPO) 来优化不同目标配置下的可验证奖励。
Card 05
数据集与资源
数据集与资源
- EndoVLA-Motion Dataset:包含 6k 图像-动作对,基于胃部幻影模型采集。
- 数据集涵盖息肉追踪、异常区域定位和圆形标记跟随三项任务。
- 标注过程结合了 YOLOv5 自动检测和人工修正,动作标签为离散的弯曲运动方向。
- 图像分辨率为 400x400 像素,帧率为 30 FPS。
Card 06
评估与结果
评估与结果
- 在真实世界的内窥镜机器人平台上进行了广泛的实验验证。
- 评估结果显示,该方法在三项内窥镜追踪任务上达到了最先进的性能。
- 模型展现出了卓越的零样本泛化能力,能够适应多样化的场景和复杂的序列追踪任务。