CapsDT: Diffusion-Transformer for Capsule Robot Manipulation

论文详情

CapsDT: Diffusion-Transformer for Capsule Robot Manipulation

2025-06-19 · 原文 · 翻译 · 2506.16263

提出了 CapsDT，一个用于胃部胶囊机器人操作的扩散-Transformer模型，能够处理交织的视觉输入和文本指令，推断对应的机器人控制信号。开发了一个完整的内窥镜胶囊机器人系统，包括由机械臂控制的外部磁体驱动的胶囊机器人，并构建了包含四个不同难度内窥镜任务的数据集。旨在探索视觉-语言-动作 (VLA) 模型在内窥镜机器人，特别是消化系统胶囊机器人领域的应用潜力，解决其性能未被探索的问题。

4 分钟读完 6 张阅读卡香港中文大学电子工程系

一眼看懂封面预览

提出了 CapsDT，一个用于胃部胶囊机器人操作的扩散-Transformer模型，能够处理交织的视觉输入和文本指令，推断对应的机器人控制信号。

提出了 CapsDT，一个用于胃部胶囊机器人操作的扩散-Transformer模型，能够处理交织的视觉输入和文本指令，推断对应的机器人控制信号。
开发了一个完整的内窥镜胶囊机器人系统，包括由机械臂控制的外部磁体驱动的胶囊机器人，并构建了包含四个不同难度内窥镜任务的数据集。
旨在探索视觉-语言-动作 (VLA) 模型在内窥镜机器人，特别是消化系统胶囊机器人领域的应用潜力，解决其性能未被探索的问题。

Card 01 研究单位

研究单位

香港中文大学电子工程系
香港中文大学深圳研究院

Card 02 论文概述

论文概述

提出了 CapsDT，一个用于胃部胶囊机器人操作的扩散-Transformer模型，能够处理交织的视觉输入和文本指令，推断对应的机器人控制信号。
开发了一个完整的内窥镜胶囊机器人系统，包括由机械臂控制的外部磁体驱动的胶囊机器人，并构建了包含四个不同难度内窥镜任务的数据集。
旨在探索 视觉-语言-动作 (VLA) 模型在内窥镜机器人，特别是消化系统胶囊机器人领域的应用潜力，解决其性能未被探索的问题。

Card 03 核心贡献

核心贡献

开发了一个内窥镜胶囊机器人系统，包括胶囊机器人、一个7自由度Kuka机械臂和一个胃模拟器，并定义了四个递进的内窥镜任务，创建了包含超过1000条轨迹的专用数据集。
提出了一个新颖的 VLA扩散Transformer模型 (CapsDT)，有效整合了机器人传感器数据、视觉信息和自然语言指令，使内窥镜机器人能够生成最优动作。
实验表明，CapsDT在内窥镜任务上达到了最先进的性能，在四项任务上的成功率相比基线模型提高了21.25%，并在真实世界仿真操作中实现了26.25% 的成功率。

Card 04 方法描述

方法描述

采用 Diffusion Transformer 架构，将多模态输入（本体感知、视觉、语言）编码到统一潜在空间，通过扩散过程去噪生成动作序列。
模型预测一个动作块以鼓励时序一致性并减少误差积累，处理多模态输入时采用不同的编码器：MLP处理低维机器人物理量，SigLIP处理图像，BART-large处理文本指令。
通过随机掩码多模态输入来防止模型过度依赖某一特定输入，增强模型的鲁棒性。

Card 05 数据集与资源

数据集与资源

使用自收集的多任务内窥镜胶囊机器人数据集，包含1000+条轨迹，涵盖四个任务：导航、旋转、充液导航、充液导航与旋转。
数据通过 LLM (Deepseek) 进行文本增强，为每条人类标注指令生成了100个语义相似的变体。
每个数据点包含文本指令、夹爪相机和外部视角的双视觉输入。

Card 06 评估与结果

评估与结果

在四项内窥镜任务上与 Octo 和 OpenVLA 基线模型进行对比。
CapsDT 在所有任务上均取得最佳性能：导航任务成功率 25%，旋转任务 50%，视角调整任务 67%，带旋转的视角调整任务 38%。
在真实世界胃部模拟器操作中，CapsDT 达到了 26.25% 的成功率，证明了其实用潜力。