一眼看懂
封面预览
提出了 CapsDT,一个用于胃部胶囊机器人操作的扩散-Transformer模型,能够处理交织的视觉输入和文本指令,推断对应的机器人控制信号。
- 提出了 CapsDT,一个用于胃部胶囊机器人操作的扩散-Transformer模型,能够处理交织的视觉输入和文本指令,推断对应的机器人控制信号。
- 开发了一个完整的内窥镜胶囊机器人系统,包括由机械臂控制的外部磁体驱动的胶囊机器人,并构建了包含四个不同难度内窥镜任务的数据集。
- 旨在探索 视觉-语言-动作 (VLA) 模型在内窥镜机器人,特别是消化系统胶囊机器人领域的应用潜力,解决其性能未被探索的问题。
Card 01
研究单位
研究单位
- 香港中文大学电子工程系
- 香港中文大学深圳研究院
Card 02
论文概述
论文概述
- 提出了 CapsDT,一个用于胃部胶囊机器人操作的扩散-Transformer模型,能够处理交织的视觉输入和文本指令,推断对应的机器人控制信号。
- 开发了一个完整的内窥镜胶囊机器人系统,包括由机械臂控制的外部磁体驱动的胶囊机器人,并构建了包含四个不同难度内窥镜任务的数据集。
- 旨在探索 视觉-语言-动作 (VLA) 模型在内窥镜机器人,特别是消化系统胶囊机器人领域的应用潜力,解决其性能未被探索的问题。
Card 03
核心贡献
核心贡献
- 开发了一个内窥镜胶囊机器人系统,包括胶囊机器人、一个7自由度Kuka机械臂和一个胃模拟器,并定义了四个递进的内窥镜任务,创建了包含超过1000条轨迹的专用数据集。
- 提出了一个新颖的 VLA扩散Transformer模型 (CapsDT),有效整合了机器人传感器数据、视觉信息和自然语言指令,使内窥镜机器人能够生成最优动作。
- 实验表明,CapsDT在内窥镜任务上达到了最先进的性能,在四项任务上的成功率相比基线模型提高了21.25%,并在真实世界仿真操作中实现了26.25% 的成功率。
Card 04
方法描述
方法描述
- 采用 Diffusion Transformer 架构,将多模态输入(本体感知、视觉、语言)编码到统一潜在空间,通过扩散过程去噪生成动作序列。
- 模型预测一个动作块以鼓励时序一致性并减少误差积累,处理多模态输入时采用不同的编码器:MLP处理低维机器人物理量,SigLIP处理图像,BART-large处理文本指令。
- 通过随机掩码多模态输入来防止模型过度依赖某一特定输入,增强模型的鲁棒性。
Card 05
数据集与资源
数据集与资源
- 使用自收集的多任务内窥镜胶囊机器人数据集,包含1000+条轨迹,涵盖四个任务:导航、旋转、充液导航、充液导航与旋转。
- 数据通过 LLM (Deepseek) 进行文本增强,为每条人类标注指令生成了100个语义相似的变体。
- 每个数据点包含文本指令、夹爪相机和外部视角的双视觉输入。
Card 06
评估与结果
评估与结果
- 在四项内窥镜任务上与 Octo 和 OpenVLA 基线模型进行对比。
- CapsDT 在所有任务上均取得最佳性能:导航任务成功率 25%,旋转任务 50%,视角调整任务 67%,带旋转的视角调整任务 38%。
- 在真实世界胃部模拟器操作中,CapsDT 达到了 26.25% 的成功率,证明了其实用潜力。