返回列表 VLA / Vision-Language-Action 每日论文卡

EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

论文详情

EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

2025-05-21 · 原文 · 翻译 · 2505.15206

论文提出了 EndoVLA,一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作(VLA)模型。 该模型旨在解决传统模块化流程在内窥镜动态环境中表现脆弱、泛化能力差以及现有 VLA 模型在胃肠道领域存在域差距的问题。 EndoVLA 能够根据内窥镜图像和医生指令,自主执行息肉追踪、异常区域描绘与跟随以及环形标记 adherence 等核心任务。

4 分钟读完 6 张阅读卡 The Chinese University of Hong Kong
一眼看懂 封面预览

论文提出了 EndoVLA,一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作(VLA)模型。

  • 论文提出了 EndoVLA,一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作(VLA)模型。
  • 该模型旨在解决传统模块化流程在内窥镜动态环境中表现脆弱、泛化能力差以及现有 VLA 模型在胃肠道领域存在域差距的问题。
  • EndoVLA 能够根据内窥镜图像和医生指令,自主执行息肉追踪、异常区域描绘与跟随以及环形标记 adherence 等核心任务。
Card 01 研究单位

研究单位

  • The Chinese University of Hong Kong
  • Technical University of Munich
Card 02 论文概述

论文概述

  • 论文提出了 EndoVLA,一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作(VLA)模型。
  • 该模型旨在解决传统模块化流程在内窥镜动态环境中表现脆弱、泛化能力差以及现有 VLA 模型在胃肠道领域存在域差距的问题。
  • EndoVLA 能够根据内窥镜图像和医生指令,自主执行息肉追踪、异常区域描绘与跟随以及环形标记 adherence 等核心任务。
Card 03 核心贡献

核心贡献

  • 提出了 EndoVLA,首个针对连续体内窥镜机器人定制的端到端 VLA 模型。
  • 设计了 Dual-phase Fine-tuning (DFT) 策略,结合了监督微调(SFT)和基于任务感知奖励的强化微调(RFT)。
  • 构建了 EndoVLA-Motion 数据集,包含视觉、语言和运动学数据,填补了该领域数据的空白。
  • 实验证明该方法显著提升了内窥镜追踪性能,并在复杂序列任务中实现了零样本泛化。
Card 04 方法描述

方法描述

  • 基于 Qwen2-VL 骨干网络构建,采用 LoRA 进行参数高效微调。
  • 模型输入包括当前 RGB 观测图像和包含场景描述与运动指南的文本提示,输出为目标边界框和离散动作。
  • 通过冻结视觉编码器和可训练的 MLP 投影器将视觉特征对齐到语言模型的嵌入空间。
  • 在强化学习阶段,采用了 Group Relative Policy Optimization (GRPO) 来优化不同目标配置下的可验证奖励。
Card 05 数据集与资源

数据集与资源

  • EndoVLA-Motion Dataset:包含 6k 图像-动作对,基于胃部幻影模型采集。
  • 数据集涵盖息肉追踪、异常区域定位和圆形标记跟随三项任务。
  • 标注过程结合了 YOLOv5 自动检测和人工修正,动作标签为离散的弯曲运动方向。
  • 图像分辨率为 400x400 像素,帧率为 30 FPS。
Card 06 评估与结果

评估与结果

  • 在真实世界的内窥镜机器人平台上进行了广泛的实验验证。
  • 评估结果显示,该方法在三项内窥镜追踪任务上达到了最先进的性能。
  • 模型展现出了卓越的零样本泛化能力,能够适应多样化的场景和复杂的序列追踪任务。