返回列表 VLA / Vision-Language-Action 每日论文卡
RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation
论文提出 RoboVIP,一个多视角视频生成增强框架,通过视觉身份提示(Visual Identity Prompting)来扩充机器人操作数据

论文详情

RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation

2026-01-08 · 原文 · 翻译 · 2601.05241

论文提出 RoboVIP,一个多视角视频生成增强框架,通过视觉身份提示(Visual Identity Prompting)来扩充机器人操作数据 解决现有数据增强方法无法生成多视角、时间一致观察结果的问题;解决仅依赖文本提示无法准确指定场景设置的问题 核心创新在于使用示例图像作为条件输入,引导生成符合语义和低层次一致性的内容,而非仅依赖文本描述

5 分钟读完 6 张阅读卡 Shanghai AI Laboratory(上海人工智能实验室)
一眼看懂 封面预览

论文提出 RoboVIP,一个多视角视频生成增强框架,通过视觉身份提示(Visual Identity Prompting)来扩充机器人操作数据

  • 论文提出 RoboVIP,一个多视角视频生成增强框架,通过视觉身份提示(Visual Identity Prompting)来扩充机器人操作数据
  • 解决现有数据增强方法无法生成多视角、时间一致观察结果的问题;解决仅依赖文本提示无法准确指定场景设置的问题
  • 核心创新在于使用示例图像作为条件输入,引导生成符合语义和低层次一致性的内容,而非仅依赖文本描述
Card 01 研究单位

研究单位

  • Shanghai AI Laboratory(上海人工智能实验室)
  • Tsinghua University(清华大学)
  • Shanghai Jiao Tong University(上海交通大学)
  • University of Michigan(密歇根大学)
Card 02 论文概述

论文概述

  • 论文提出 RoboVIP,一个多视角视频生成增强框架,通过视觉身份提示(Visual Identity Prompting)来扩充机器人操作数据
  • 解决现有数据增强方法无法生成多视角、时间一致观察结果的问题;解决仅依赖文本提示无法准确指定场景设置的问题
  • 核心创新在于使用示例图像作为条件输入,引导生成符合语义和低层次一致性的内容,而非仅依赖文本描述
Card 03 核心贡献

核心贡献

  • 提出多视角视频级别增强框架,支持动态移动手腕相机视图的生成
  • 设计动作引导分割管道,利用夹爪状态信息定位交互对象时间窗口
  • 构建百万规模的自动化视觉身份提示池,通过全景分割和多重过滤筛选
  • 提出视觉身份提示方法,将示例图像作为条件输入引导视频扩散模型
  • 在模拟环境和真实机器人上验证了方法对 VLA 模型(Octo、π₀)和视觉运动策略(Diffusion Policy)的性能提升
Card 04 方法描述

方法描述

  • 基础模型:基于 Wan2.1 14B 参数的图视频扩散模型
  • 微调策略:采用 LoRA(Low-Rank Adaptation)进行高效微调
  • 多视角处理:使用结构化垂直拼接策略,将不同视角的帧在同一时间戳进行通道级拼接
  • 分割管道:结合动作信息(夹爪状态变化)定位交互对象,使用 Cosmos-Reason1 VLM 推理对象语义,SAM2 进行视频分割跟踪
  • 视觉身份提示:通过全景分割从大规模数据集中提取对象图像,经过质量筛选后构建提示池,推理时将多个身份图像打包编码后注入扩散过程
Card 05 数据集与资源

数据集与资源

  • 训练数据:Bridge V1/V2 数据集、Droid 数据集
  • 增强数据量:12K BridgeV2 轨迹用于 VLA 模型训练
  • 下游策略模型:Octo-base(多帧条件策略)、π₀(单帧 VLA 策略)、Diffusion Policy(视觉运动策略)
  • 训练资源:8 GPU,每 GPU 144GB 显存,有效批量大小 32
Card 06 评估与结果

评估与结果

  • 仿真环境:SimplerEnv,4 个操作任务(Put spoon on towel、Put carrot on plate、Stack green cube on yellow cube、Put eggplant in basket)
  • 评估指标:任务成功率、Grasp 成功率、条件 Put 成功率(Put = Success/Grasp)
  • 主要结果

- 视频生成质量:RoboVIP 达到 FID=39.97,FVD=138.4,MV-Mat.=2242.1(最优)

- Octo + RoboVIP (Text+ID):平均成功率 18.5%,Put 成功率 41.1%

- π₀ + RoboVIP (Text-only):平均成功率 29.0%,Put 成功率 55.0%

- 真实机器人实验:DP + RoboVIP 在 clutter 环境下达到 9/10 成功率(基线为 0/10)

  • 关键发现:视觉身份提示和视频级生成对多帧条件策略尤为重要;RoboVIP 在 6 帧历史条件下仍保持性能,而基线方法性能降为 0