返回列表 VLA / Vision-Language-Action 每日论文卡

CapsDT: Diffusion-Transformer for Capsule Robot Manipulation

论文详情

CapsDT: Diffusion-Transformer for Capsule Robot Manipulation

2025-06-19 · 原文 · 翻译 · 2506.16263

提出了 CapsDT,一个用于胃部胶囊机器人操作的扩散-Transformer模型,能够处理交织的视觉输入和文本指令,推断对应的机器人控制信号。 开发了一个完整的内窥镜胶囊机器人系统,包括由机械臂控制的外部磁体驱动的胶囊机器人,并构建了包含四个不同难度内窥镜任务的数据集。 旨在探索 视觉-语言-动作 (VLA) 模型在内窥镜机器人,特别是消化系统胶囊机器人领域的应用潜力,解决其性能未被探索的问题。

4 分钟读完 6 张阅读卡 香港中文大学电子工程系
一眼看懂 封面预览

提出了 CapsDT,一个用于胃部胶囊机器人操作的扩散-Transformer模型,能够处理交织的视觉输入和文本指令,推断对应的机器人控制信号。

  • 提出了 CapsDT,一个用于胃部胶囊机器人操作的扩散-Transformer模型,能够处理交织的视觉输入和文本指令,推断对应的机器人控制信号。
  • 开发了一个完整的内窥镜胶囊机器人系统,包括由机械臂控制的外部磁体驱动的胶囊机器人,并构建了包含四个不同难度内窥镜任务的数据集。
  • 旨在探索 视觉-语言-动作 (VLA) 模型在内窥镜机器人,特别是消化系统胶囊机器人领域的应用潜力,解决其性能未被探索的问题。
Card 01 研究单位

研究单位

  • 香港中文大学电子工程系
  • 香港中文大学深圳研究院
Card 02 论文概述

论文概述

  • 提出了 CapsDT,一个用于胃部胶囊机器人操作的扩散-Transformer模型,能够处理交织的视觉输入和文本指令,推断对应的机器人控制信号。
  • 开发了一个完整的内窥镜胶囊机器人系统,包括由机械臂控制的外部磁体驱动的胶囊机器人,并构建了包含四个不同难度内窥镜任务的数据集。
  • 旨在探索 视觉-语言-动作 (VLA) 模型在内窥镜机器人,特别是消化系统胶囊机器人领域的应用潜力,解决其性能未被探索的问题。
Card 03 核心贡献

核心贡献

  • 开发了一个内窥镜胶囊机器人系统,包括胶囊机器人、一个7自由度Kuka机械臂和一个胃模拟器,并定义了四个递进的内窥镜任务,创建了包含超过1000条轨迹的专用数据集。
  • 提出了一个新颖的 VLA扩散Transformer模型 (CapsDT),有效整合了机器人传感器数据、视觉信息和自然语言指令,使内窥镜机器人能够生成最优动作。
  • 实验表明,CapsDT在内窥镜任务上达到了最先进的性能,在四项任务上的成功率相比基线模型提高了21.25%,并在真实世界仿真操作中实现了26.25% 的成功率。
Card 04 方法描述

方法描述

  • 采用 Diffusion Transformer 架构,将多模态输入(本体感知、视觉、语言)编码到统一潜在空间,通过扩散过程去噪生成动作序列。
  • 模型预测一个动作块以鼓励时序一致性并减少误差积累,处理多模态输入时采用不同的编码器:MLP处理低维机器人物理量,SigLIP处理图像,BART-large处理文本指令。
  • 通过随机掩码多模态输入来防止模型过度依赖某一特定输入,增强模型的鲁棒性。
Card 05 数据集与资源

数据集与资源

  • 使用自收集的多任务内窥镜胶囊机器人数据集,包含1000+条轨迹,涵盖四个任务:导航、旋转、充液导航、充液导航与旋转。
  • 数据通过 LLM (Deepseek) 进行文本增强,为每条人类标注指令生成了100个语义相似的变体。
  • 每个数据点包含文本指令、夹爪相机和外部视角的双视觉输入。
Card 06 评估与结果

评估与结果

  • 在四项内窥镜任务上与 OctoOpenVLA 基线模型进行对比。
  • CapsDT 在所有任务上均取得最佳性能:导航任务成功率 25%,旋转任务 50%,视角调整任务 67%,带旋转的视角调整任务 38%
  • 在真实世界胃部模拟器操作中,CapsDT 达到了 26.25% 的成功率,证明了其实用潜力。