返回列表 VLA / Vision-Language-Action 每日论文卡
OpenRC: An Open-Source Robotic Colonoscopy Framework for Multimodal Data Acquisition and Autonomy Research
论文提出了一个名为 OpenRC 的开源模块化机器人结肠镜框架,通过改造传统内镜来支持可重复的闭环实验和多模态数据收集。

论文详情

OpenRC: An Open-Source Robotic Colonoscopy Framework for Multimodal Data Acquisition and Autonomy Research

2026-04-04 · 原文 · 翻译 · 2604.03781

论文提出了一个名为 OpenRC 的开源模块化机器人结肠镜框架,通过改造传统内镜来支持可重复的闭环实验和多模态数据收集。 该框架旨在解决现有结肠镜平台缺乏对操作者控制、器械运动和视觉反馈耦合动力学系统研究支持的问题,为机器人结肠镜、医学成像和 视觉-语言-动作(VLA) 学习范式研究提供基础。 系统支持同时记录视频、操作者指令、驱动状态和远端姿态,并通过实验验证了运动一致性并量化了跨模态延迟。

9 分钟读完 6 张阅读卡 Walker Department of Mechanical Engineering, The Un…
一眼看懂 封面预览

论文提出了一个名为 OpenRC 的开源模块化机器人结肠镜框架,通过改造传统内镜来支持可重复的闭环实验和多模态数据收集。

  • 论文提出了一个名为 OpenRC 的开源模块化机器人结肠镜框架,通过改造传统内镜来支持可重复的闭环实验和多模态数据收集。
  • 该框架旨在解决现有结肠镜平台缺乏对操作者控制、器械运动和视觉反馈耦合动力学系统研究支持的问题,为机器人结肠镜、医学成像和 视觉-语言-动作(V…
  • 系统支持同时记录视频、操作者指令、驱动状态和远端姿态,并通过实验验证了运动一致性并量化了跨模态延迟。
Card 01 研究单位

研究单位

  • Walker Department of Mechanical Engineering, The University of Texas at Austin, Austin, 78712, TX, USA
  • Department of Surgical Oncology, Division of Surgery, The University of Texas MD Anderson Cancer Center, Houston, 77030, TX, USA
  • Department of Surgery & Perioperative Care, Dell Medical School, The University of Texas at Austin, Austin, 78712, TX, USA
  • School of Medicine and Health, Technical University of Munich, Munich, 80333, Germany
Card 02 论文概述

论文概述

  • 论文提出了一个名为 OpenRC 的开源模块化机器人结肠镜框架,通过改造传统内镜来支持可重复的闭环实验和多模态数据收集。
  • 该框架旨在解决现有结肠镜平台缺乏对操作者控制、器械运动和视觉反馈耦合动力学系统研究支持的问题,为机器人结肠镜、医学成像和 视觉-语言-动作(VLA) 学习范式研究提供基础。
  • 系统支持同时记录视频、操作者指令、驱动状态和远端姿态,并通过实验验证了运动一致性并量化了跨模态延迟。
Card 03 核心贡献

核心贡献

  • 提出了一个低成本(<5000美元)的模块化开源机器人结肠镜框架 OpenRC,该框架能够改造传统商用结肠镜(如 PENTAX EC-3840LK)而不改变原有设备。
  • 设计并实现了同步的多模态数据记录系统,包括内镜视频(30 FPS)、操作者指令(50 Hz)、机器人驱动状态(50 Hz)和基于电磁(EM)跟踪的远端姿态(6自由度)。
  • 收集并发布了一个大规模多模态数据集,包含 1,894 个遥操作片段(约 19 小时),涵盖常规导航、故障事件和恢复行为等 10 种结构化任务变化。
  • 提供了完整的 ROS 2 软件架构和用户界面,支持遥操作和 rosbag 记录的并行执行,以保证控制时序和记录完整性。
  • 通过系统特征化实验验证了硬件运动一致性,量化了跨模态延迟,并展示了数据集在导航和故障恢复研究中的价值。
Card 04 方法描述

方法描述

  • 硬件设计:系统包括弯曲模块(使用两个 DYNAMIXEL XM540-W270-R 舵机通过 3D 打印的同心夹头驱动控制手柄旋钮)和进给模块(使用 DYNAMIXEL XM430-W350-R 舵机驱动的摩擦轮进给机构),实现对插入/回缩和远端弯曲的三个关键自由度的驱动。
  • 软件架构:基于 ROS 2 (Humble) 构建,在 NVIDIA Jetson Orin Nano Super 上运行,通过 Xbox 360 控制器接收操作者输入,映射为归一化的动作向量,并通过 U2D2 接口控制舵机。
  • 感知与记录:使用内镜内置摄像头通过 USB 视频采集设备捕获视频,使用 NDI Aurora 电磁跟踪系统测量远端 6 自由度姿态,并通过 rosbag 同步记录所有数据流。
  • 测试环境:使用定制的硅胶结肠模型 phantom(带有嵌入式息肉)和商用训练 phantom(Kyoto Kagaku)进行数据采集,以获得精确的 6 自由度真值并增加几何和外观多样性。
  • 数据同步与处理:所有数据流重采样至 30 Hz,以视频为参考进行延迟校准,使用最小二乘回归和皮尔逊相关性分析量化跨模态延迟,确保数据对齐稳定性。
Card 05 数据集与资源

数据集与资源

  • 使用的数据集:自采集的 OpenRC Dataset(包含 1,894 个遥操作片段,约 19 小时),对比数据集包括 HyperKvasir, EndoSLAM, EndoMapper, C3VDv2 等。
  • 硬件平台组件:PENTAX EC-3840LK 结肠镜,DYNAMIXEL XM540-W270-RXM430-W350-R 舵机,NVIDIA Jetson Orin Nano Super (8 GB) 计算单元,NDI Aurora 电磁跟踪器,Xbox 360 控制器。
  • Phantom 资源:定制硅胶 phantom(带嵌入式息肉)和京都科学商用 phantom。
  • 系统成本:整个框架(不含电磁跟踪器)组装成本低于 5000 美元。
Card 06 评估与结果

评估与结果

  • 评估环境:在 phantom 实验环境中进行,使用定制硅胶 phantom 和商用训练 phantom 进行遥操作导航任务。
  • 主要评估指标:系统运动一致性(指令响应追踪)、跨模态延迟(操作者动作 vs 状态、状态 vs 远端姿态)、数据集特征(片段时长、轨迹长度、任务分布)。
  • 关键实验结果:
  • 系统响应特征化显示测量响应紧密跟随指令输入(使用正弦波指令测试),指示一致的驱动性能。
  • 相对于控制动作的估计时间偏移:电机编码器状态约为 102 ms,电磁跟踪约为 435 ms,光流导出运动约为 412 ms。
  • 后对齐残留延迟分布显示稳定性:操作者动作 vs 状态的残留中值偏移为 55.6 ms(约 1.6 帧),状态 vs 远端姿态的残留中值偏移为 0.0 ms。
  • 数据集包含 1,894 个片段(约 19 小时),涵盖 10 种任务,包括插入/回缩和结构化壁扫描行为,以及 142 个故障和 141 个恢复片段。
  • 导航片段时长和轨迹长度显著大于故障/恢复片段,符合预期。