返回列表 VLA / Vision-Language-Action 每日论文卡

ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems

论文详情

ScanBot: Towards Intelligent Surface Scanning in Embodied Robotic Systems

2025-05-22 · 原文 · 翻译 · 2505.17295

论文介绍了 ScanBot,这是一个专为机器人系统中的指令条件化、高精度表面扫描设计的新型数据集。 与现有的专注于抓取或导航等粗糙任务的机器人学习数据集不同,ScanBot 专注于工业激光扫描的亚毫米级路径连续性和参数稳定性需求。 研究旨在解决现有视觉-语言-动作(VLA)模型在细粒度指令和现实世界精度要求下无法生成稳定扫描轨迹的问题。

5 分钟读完 6 张阅读卡 University of Connecticut
一眼看懂 封面预览

论文介绍了 ScanBot,这是一个专为机器人系统中的指令条件化、高精度表面扫描设计的新型数据集。

  • 论文介绍了 ScanBot,这是一个专为机器人系统中的指令条件化、高精度表面扫描设计的新型数据集。
  • 与现有的专注于抓取或导航等粗糙任务的机器人学习数据集不同,ScanBot 专注于工业激光扫描的亚毫米级路径连续性和参数稳定性需求。
  • 研究旨在解决现有视觉-语言-动作(VLA)模型在细粒度指令和现实世界精度要求下无法生成稳定扫描轨迹的问题。
Card 01 研究单位

研究单位

  • University of Connecticut
Card 02 论文概述

论文概述

  • 论文介绍了 ScanBot,这是一个专为机器人系统中的指令条件化、高精度表面扫描设计的新型数据集。
  • 与现有的专注于抓取或导航等粗糙任务的机器人学习数据集不同,ScanBot 专注于工业激光扫描的亚毫米级路径连续性和参数稳定性需求。
  • 研究旨在解决现有视觉-语言-动作(VLA)模型在细粒度指令和现实世界精度要求下无法生成稳定扫描轨迹的问题。
Card 03 核心贡献

核心贡献

  • 提出了 ScanBot 数据集,这是首个针对高精度表面扫描任务的指令条件化多模态数据集,填补了非抓取类工具操作数据的空白。
  • 定义了 6 种代表性的扫描任务类型,覆盖全表面扫描、几何聚焦、空间参考、功能目标、缺陷检测和对比分析。
  • 提供了包含同步 RGB-D 图像、激光轮廓、机器人姿态、关节状态及传感器参数的全方位监督数据。
  • 对一系列最先进的多模态大语言模型(MLLMs)进行了基准测试,揭示了它们在感知-规划-执行全流程中的局限性。
Card 04 方法描述

方法描述

  • 构建了一个集成 UR3 机械臂Keyence LJ-X8200 激光轮廓仪Intel RealSense D435i RGB-D 相机 的硬件系统。
  • 采用迭代校准过程,根据材料属性和反射率调整激光扫描仪设置(如曝光时间、控制范围)和机器人运动速度,以确保数据质量。
  • 数据集包含第一人称视角的 RGB-D 数据、第三人称视角视频以及详细的元数据(自然语言指令、任务 ID、关节状态等)。
  • 实验评估了 MLLMs 在基于视觉外观预测扫描仪参数、定位自然语言指令引用区域以及生成有效扫描路径方面的能力。
Card 05 数据集与资源

数据集与资源

  • ScanBot 数据集:包含 12 个物体(6 个现实世界电子元件,6 个 3D 打印几何体),共 896 条扫描路径。
  • 硬件资源:UR3 协作机械臂,Keyence LJ-X8200 激光传感器,Intel RealSense D435i 深度相机,GoPro HERO8 运动相机。
  • 评估模型GPT-4.1OpenAI o3Gemini 2.5 ProGemini 2.5 Flash
Card 06 评估与结果

评估与结果

  • 参数预测:模型在预测扫描仪参数方面的准确率较低,Gemini 2.5 Flash 取得了最高的平均准确率(41.7%),但在 Z-center 和 CMOS 范围预测上普遍困难。
  • 区域定位:使用 IoU 评估定位能力,OpenAI o3 表现最好(平均 IoU 0.129),但在细粒度特征(如几何聚焦、空间参考)上,所有模型的 IoU 接近于零。
  • 轨迹生成与重建:现有模型生成的路径点经常偏离物体表面,导致激光扫描背景区域,重建误差极大,无法满足工业扫描的精度要求。