一眼看懂
封面预览
本文提出了RobotSeg,一个面向图像和视频机器人分割的基础模型,旨在解决现有模型在机器人分割任务中面临的形态多样性、外观歧义、结构复杂性和…
- 本文提出了RobotSeg,一个面向图像和视频机器人分割的基础模型,旨在解决现有模型在机器人分割任务中面临的形态多样性、外观歧义、结构复杂性和…
- 研究指出,当前最先进的分割模型(如SAM 2)在机器人感知场景下存在三大局限:缺乏对关节机器人结构的建模、依赖人工提示、以及训练需要大量逐帧标…
- 研究目标是构建一个结构感知、全自动且标签高效的机器人分割解决方案,并为此构建了大规模视频机器人分割基准数据集。
Card 01
研究单位
研究单位
- 新加坡国立大学 Show Lab
Card 02
论文概述
论文概述
- 本文提出了RobotSeg,一个面向图像和视频机器人分割的基础模型,旨在解决现有模型在机器人分割任务中面临的形态多样性、外观歧义、结构复杂性和快速形变等核心挑战。
- 研究指出,当前最先进的分割模型(如SAM 2)在机器人感知场景下存在三大局限:缺乏对关节机器人结构的建模、依赖人工提示、以及训练需要大量逐帧标注。
- 研究目标是构建一个结构感知、全自动且标签高效的机器人分割解决方案,并为此构建了大规模视频机器人分割基准数据集。
Card 03
核心贡献
核心贡献
- 提出了首个支持图像和视频的机器人分割基础模型RobotSeg,支持对机械臂、夹爪和整体机器人的细粒度分割,并提供可提示的交互能力。
- 构建了首个视频机器人分割基准数据集VRS,包含超过2.8k个视频(138k帧),覆盖多样化的机器人形态、场景和光照条件,规模是现有数据集的38倍。
- 设计了整合结构增强内存关联器、机器人提示生成器和标签高效训练策略的新框架,实现了结构感知、自动且标签高效的视频机器人分割。
Card 04
方法描述
方法描述
- 模型基于SAM 2构建,针对其局限引入三项创新。
- 结构增强内存关联器:整合时序上下文与结构信息,通过记忆关联和结构感知增强,实现对关节机器人的时序一致性分割。
- 机器人提示生成器:生成包含语义先验的类别标记和源自历史记忆的对象标记,实现无需手动点击或框选提示的自动分割。
- 标签高效训练策略:提出包含前向-后向循环一致性损失、语义一致性损失和图像块一致性损失的框架,仅需视频第一帧的真值掩码即可进行训练。
Card 05
数据集与资源
数据集与资源
- 主要数据集:新构建的视频机器人分割数据集,包含2,812个视频(共138,707帧)。
- 对比数据集:RoboEngine数据集(包含3,629张图像)。
- 模型规模:RobotSeg总参数量为41.3M。
- 训练资源:在8块NVIDIA RTX A5000 GPU(每块24GB显存)上训练25个周期,耗时15小时。
Card 06
评估与结果
评估与结果
- 评估基准:在图像数据集RoboEngine-Test和视频数据集VRS-Test上进行评估。
- 评估设置:包括自动模式、单点模式、三点模式、边界框模式和在线交互模式。
- 主要指标:采用J&F指标,综合区域相似度和边界精度。
- 关键结果:在视频分割上,RobotSeg在自动模式下对整体机器人的分割J&F达到85.1,显著优于微调后的SAM 2.1;在图像分割上,自动模式J&F达到87.9,同样取得最优性能。