本文提出了RobotSeg，一个面向图像和视频机器人分割的基础模型，旨在解决现有模型在机器人分割任务中面临的形态多样性、外观歧义、结构复杂性和…

论文详情

RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video

2025-11-28 · 原文 · 翻译 · 2511.22950

本文提出了RobotSeg，一个面向图像和视频机器人分割的基础模型，旨在解决现有模型在机器人分割任务中面临的形态多样性、外观歧义、结构复杂性和快速形变等核心挑战。研究指出，当前最先进的分割模型（如SAM 2）在机器人感知场景下存在三大局限：缺乏对关节机器人结构的建模、依赖人工提示、以及训练需要大量逐帧标注。研究目标是构建一个结构感知、全自动且标签高效的机器人分割解决方案，并为此构建了大规模视频机器人分割基准数据…

4 分钟读完 6 张阅读卡新加坡国立大学 Show Lab

一眼看懂封面预览

本文提出了RobotSeg，一个面向图像和视频机器人分割的基础模型，旨在解决现有模型在机器人分割任务中面临的形态多样性、外观歧义、结构复杂性和…

本文提出了RobotSeg，一个面向图像和视频机器人分割的基础模型，旨在解决现有模型在机器人分割任务中面临的形态多样性、外观歧义、结构复杂性和…
研究指出，当前最先进的分割模型（如SAM 2）在机器人感知场景下存在三大局限：缺乏对关节机器人结构的建模、依赖人工提示、以及训练需要大量逐帧标…
研究目标是构建一个结构感知、全自动且标签高效的机器人分割解决方案，并为此构建了大规模视频机器人分割基准数据集。

Card 01 研究单位

研究单位

新加坡国立大学 Show Lab

Card 02 论文概述

论文概述

本文提出了RobotSeg，一个面向图像和视频机器人分割的基础模型，旨在解决现有模型在机器人分割任务中面临的形态多样性、外观歧义、结构复杂性和快速形变等核心挑战。
研究指出，当前最先进的分割模型（如SAM 2）在机器人感知场景下存在三大局限：缺乏对关节机器人结构的建模、依赖人工提示、以及训练需要大量逐帧标注。
研究目标是构建一个结构感知、全自动且标签高效的机器人分割解决方案，并为此构建了大规模视频机器人分割基准数据集。

Card 03 核心贡献

核心贡献

提出了首个支持图像和视频的机器人分割基础模型RobotSeg，支持对机械臂、夹爪和整体机器人的细粒度分割，并提供可提示的交互能力。
构建了首个视频机器人分割基准数据集VRS，包含超过2.8k个视频（138k帧），覆盖多样化的机器人形态、场景和光照条件，规模是现有数据集的38倍。
设计了整合结构增强内存关联器、机器人提示生成器和标签高效训练策略的新框架，实现了结构感知、自动且标签高效的视频机器人分割。

Card 04 方法描述

方法描述

模型基于SAM 2构建，针对其局限引入三项创新。
结构增强内存关联器：整合时序上下文与结构信息，通过记忆关联和结构感知增强，实现对关节机器人的时序一致性分割。
机器人提示生成器：生成包含语义先验的类别标记和源自历史记忆的对象标记，实现无需手动点击或框选提示的自动分割。
标签高效训练策略：提出包含前向-后向循环一致性损失、语义一致性损失和图像块一致性损失的框架，仅需视频第一帧的真值掩码即可进行训练。

Card 05 数据集与资源

数据集与资源

主要数据集：新构建的视频机器人分割数据集，包含2,812个视频（共138,707帧）。
对比数据集：RoboEngine数据集（包含3,629张图像）。
模型规模：RobotSeg总参数量为41.3M。
训练资源：在8块NVIDIA RTX A5000 GPU（每块24GB显存）上训练25个周期，耗时15小时。

Card 06 评估与结果

评估与结果

评估基准：在图像数据集RoboEngine-Test和视频数据集VRS-Test上进行评估。
评估设置：包括自动模式、单点模式、三点模式、边界框模式和在线交互模式。
主要指标：采用J&F指标，综合区域相似度和边界精度。
关键结果：在视频分割上，RobotSeg在自动模式下对整体机器人的分割J&F达到85.1，显著优于微调后的SAM 2.1；在图像分割上，自动模式J&F达到87.9，同样取得最优性能。