EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

论文详情

EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

2025-05-21 · 原文 · 翻译 · 2505.15206

论文提出了 EndoVLA，一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作（VLA）模型。该模型旨在解决传统模块化流程在内窥镜动态环境中表现脆弱、泛化能力差以及现有 VLA 模型在胃肠道领域存在域差距的问题。 EndoVLA 能够根据内窥镜图像和医生指令，自主执行息肉追踪、异常区域描绘与跟随以及环形标记 adherence 等核心任务。

4 分钟读完 6 张阅读卡 The Chinese University of Hong Kong

一眼看懂封面预览

论文提出了 EndoVLA，一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作（VLA）模型。

论文提出了 EndoVLA，一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作（VLA）模型。
该模型旨在解决传统模块化流程在内窥镜动态环境中表现脆弱、泛化能力差以及现有 VLA 模型在胃肠道领域存在域差距的问题。
EndoVLA 能够根据内窥镜图像和医生指令，自主执行息肉追踪、异常区域描绘与跟随以及环形标记 adherence 等核心任务。

Card 01 研究单位

研究单位

The Chinese University of Hong Kong
Technical University of Munich

Card 02 论文概述

论文概述

论文提出了 EndoVLA，一种专门用于连续体机器人内窥镜手术的双阶段视觉-语言-动作（VLA）模型。
该模型旨在解决传统模块化流程在内窥镜动态环境中表现脆弱、泛化能力差以及现有 VLA 模型在胃肠道领域存在域差距的问题。
EndoVLA 能够根据内窥镜图像和医生指令，自主执行息肉追踪、异常区域描绘与跟随以及环形标记 adherence 等核心任务。

Card 03 核心贡献

核心贡献

提出了 EndoVLA，首个针对连续体内窥镜机器人定制的端到端 VLA 模型。
设计了 Dual-phase Fine-tuning (DFT) 策略，结合了监督微调（SFT）和基于任务感知奖励的强化微调（RFT）。
构建了 EndoVLA-Motion 数据集，包含视觉、语言和运动学数据，填补了该领域数据的空白。
实验证明该方法显著提升了内窥镜追踪性能，并在复杂序列任务中实现了零样本泛化。

Card 04 方法描述

方法描述

基于 Qwen2-VL 骨干网络构建，采用 LoRA 进行参数高效微调。
模型输入包括当前 RGB 观测图像和包含场景描述与运动指南的文本提示，输出为目标边界框和离散动作。
通过冻结视觉编码器和可训练的 MLP 投影器将视觉特征对齐到语言模型的嵌入空间。
在强化学习阶段，采用了 Group Relative Policy Optimization (GRPO) 来优化不同目标配置下的可验证奖励。

Card 05 数据集与资源

数据集与资源

EndoVLA-Motion Dataset：包含 6k 图像-动作对，基于胃部幻影模型采集。
数据集涵盖息肉追踪、异常区域定位和圆形标记跟随三项任务。
标注过程结合了 YOLOv5 自动检测和人工修正，动作标签为离散的弯曲运动方向。
图像分辨率为 400x400 像素，帧率为 30 FPS。

Card 06 评估与结果

评估与结果

在真实世界的内窥镜机器人平台上进行了广泛的实验验证。
评估结果显示，该方法在三项内窥镜追踪任务上达到了最先进的性能。
模型展现出了卓越的零样本泛化能力，能够适应多样化的场景和复杂的序列追踪任务。