论文提出 RoboVIP，一个多视角视频生成增强框架，通过视觉身份提示（Visual Identity Prompting）来扩充机器人操作数据

论文详情

RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation

2026-01-08 · 原文 · 翻译 · 2601.05241

论文提出 RoboVIP，一个多视角视频生成增强框架，通过视觉身份提示（Visual Identity Prompting）来扩充机器人操作数据解决现有数据增强方法无法生成多视角、时间一致观察结果的问题；解决仅依赖文本提示无法准确指定场景设置的问题核心创新在于使用示例图像作为条件输入，引导生成符合语义和低层次一致性的内容，而非仅依赖文本描述

5 分钟读完 6 张阅读卡 Shanghai AI Laboratory（上海人工智能实验室）

一眼看懂封面预览

论文提出 RoboVIP，一个多视角视频生成增强框架，通过视觉身份提示（Visual Identity Prompting）来扩充机器人操作数据

论文提出 RoboVIP，一个多视角视频生成增强框架，通过视觉身份提示（Visual Identity Prompting）来扩充机器人操作数据
解决现有数据增强方法无法生成多视角、时间一致观察结果的问题；解决仅依赖文本提示无法准确指定场景设置的问题
核心创新在于使用示例图像作为条件输入，引导生成符合语义和低层次一致性的内容，而非仅依赖文本描述

Card 01 研究单位

研究单位

Shanghai AI Laboratory（上海人工智能实验室）
Tsinghua University（清华大学）
Shanghai Jiao Tong University（上海交通大学）
University of Michigan（密歇根大学）

Card 02 论文概述

论文概述

论文提出 RoboVIP，一个多视角视频生成增强框架，通过视觉身份提示（Visual Identity Prompting）来扩充机器人操作数据
解决现有数据增强方法无法生成多视角、时间一致观察结果的问题；解决仅依赖文本提示无法准确指定场景设置的问题
核心创新在于使用示例图像作为条件输入，引导生成符合语义和低层次一致性的内容，而非仅依赖文本描述

Card 03 核心贡献

核心贡献

提出多视角视频级别增强框架，支持动态移动手腕相机视图的生成
设计动作引导分割管道，利用夹爪状态信息定位交互对象时间窗口
构建百万规模的自动化视觉身份提示池，通过全景分割和多重过滤筛选
提出视觉身份提示方法，将示例图像作为条件输入引导视频扩散模型
在模拟环境和真实机器人上验证了方法对 VLA 模型（Octo、π₀）和视觉运动策略（Diffusion Policy）的性能提升

Card 04 方法描述

方法描述

基础模型：基于 Wan2.1 14B 参数的图视频扩散模型
微调策略：采用 LoRA（Low-Rank Adaptation）进行高效微调
多视角处理：使用结构化垂直拼接策略，将不同视角的帧在同一时间戳进行通道级拼接
分割管道：结合动作信息（夹爪状态变化）定位交互对象，使用 Cosmos-Reason1 VLM 推理对象语义，SAM2 进行视频分割跟踪
视觉身份提示：通过全景分割从大规模数据集中提取对象图像，经过质量筛选后构建提示池，推理时将多个身份图像打包编码后注入扩散过程

Card 05 数据集与资源

数据集与资源

训练数据：Bridge V1/V2 数据集、Droid 数据集
增强数据量：12K BridgeV2 轨迹用于 VLA 模型训练
下游策略模型：Octo-base（多帧条件策略）、π₀（单帧 VLA 策略）、Diffusion Policy（视觉运动策略）
训练资源：8 GPU，每 GPU 144GB 显存，有效批量大小 32

Card 06 评估与结果

评估与结果

仿真环境：SimplerEnv，4 个操作任务（Put spoon on towel、Put carrot on plate、Stack green cube on yellow cube、Put eggplant in basket）
评估指标：任务成功率、Grasp 成功率、条件 Put 成功率（Put = Success/Grasp）
主要结果：

- 视频生成质量：RoboVIP 达到 FID=39.97，FVD=138.4，MV-Mat.=2242.1（最优）

- Octo + RoboVIP (Text+ID)：平均成功率 18.5%，Put 成功率 41.1%

- π₀ + RoboVIP (Text-only)：平均成功率 29.0%，Put 成功率 55.0%

- 真实机器人实验：DP + RoboVIP 在 clutter 环境下达到 9/10 成功率（基线为 0/10）

关键发现：视觉身份提示和视频级生成对多帧条件策略尤为重要；RoboVIP 在 6 帧历史条件下仍保持性能，而基线方法性能降为 0