论文提出 RoboPaint，一种新颖的 Real-Sim-Real 数据流水线，旨在将人类演示转换为机器人可执行的、环境特定的训练数据，以解…

论文详情

RoboPaint: From Human Demonstration to Any Robot and Any View

2026-02-05 · 原文 · 翻译 · 2602.05325

论文提出 RoboPaint，一种新颖的 Real-Sim-Real 数据流水线，旨在将人类演示转换为机器人可执行的、环境特定的训练数据，以解决大规模、高保真机器人演示数据获取的瓶颈问题。核心目标是构建一个可扩展、高性价比的数据生成方案，作为传统遥操作的替代方案，用于训练灵巧操作任务中的视觉-语言-动作模型。研究通过多模态数据采集、跨具身建模与渲染合成，实现了从人类演示到任意机器人形态与任意视角数据的自动化转换。

5 分钟读完 6 张阅读卡 Paxini Tech.

一眼看懂封面预览

论文提出 RoboPaint，一种新颖的 Real-Sim-Real 数据流水线，旨在将人类演示转换为机器人可执行的、环境特定的训练数据，以解…

论文提出 RoboPaint，一种新颖的 Real-Sim-Real 数据流水线，旨在将人类演示转换为机器人可执行的、环境特定的训练数据，以解…
核心目标是构建一个可扩展、高性价比的数据生成方案，作为传统遥操作的替代方案，用于训练灵巧操作任务中的视觉-语言-动作模型。
研究通过多模态数据采集、跨具身建模与渲染合成，实现了从人类演示到任意机器人形态与任意视角数据的自动化转换。

Card 01 研究单位

研究单位

Paxini Tech.
Shanghai Jiao Tong University
Zhejiang University

Card 02 论文概述

论文概述

论文提出 RoboPaint，一种新颖的 Real-Sim-Real 数据流水线，旨在将人类演示转换为机器人可执行的、环境特定的训练数据，以解决大规模、高保真机器人演示数据获取的瓶颈问题。
核心目标是构建一个可扩展、高性价比的数据生成方案，作为传统遥操作的替代方案，用于训练灵巧操作任务中的视觉-语言-动作模型。
研究通过多模态数据采集、跨具身建模与渲染合成，实现了从人类演示到任意机器人形态与任意视角数据的自动化转换。

Card 03 核心贡献

核心贡献

开发了高保真多模态数据采集系统，能够同步记录11通道RGB视频、3通道RGB-D视频、15通道触觉信号和29通道关节信号。
提出了完整的 RoboPaint 数据处理流水线，整合姿态估计、Dex-Tactile重定向和静态场景构建，将人类演示转化为机器人可执行数据，并开源了数据处理工具包。
实验表明，重定向的灵巧手轨迹在10项多样化物体操作任务中成功率达 84%，使用生成数据训练的VLA模型（Pi0.5）在代表性任务上平均成功率达 80%。

Card 04 方法描述

方法描述

在标准化数据采集室中，使用配备多种传感器的手套和多相机阵列，同步捕获人类操作员的多模态演示数据。
提出一种触觉感知重定向方法，通过联合优化运动学对齐和接触一致性约束，将人类手部状态映射到目标灵巧手（Paxini DexH13）状态。
利用 3D Gaussian Splatting 重构部署场景，并与仿真环境（Isaac Sim）进行度量对齐。
在仿真环境中，结合重构的3DGS背景和高质量网格模型，驱动重定向后的机器人与物体，从任意视角渲染生成逼真的视觉观测数据，最终打包成用于训练VLA模型的多模态数据集。

Card 05 数据集与资源

数据集与资源

使用自建数据采集系统收集的多模态人类演示数据，包括高分辨率视频、触觉压力图和关节角度序列。
针对不同机器人具身（如 UR5、Paxini ToRA One）生成合成训练数据。
文中未明确说明具体的模型参数量与GPU/TPU训练资源。

Card 06 评估与结果

评估与结果

仿真评估：通过重投影分析和在 Isaac Sim 中回放，验证了数据采集和重定向的精度。触觉接触点平均误差为 3.86 mm。
现实世界评估：在 UR5 机器人搭载 DexH13 灵巧手上进行回放实验，跨10个物体的操作任务平均成功率为 84%。
模型性能评估：使用生成数据训练的VLA策略（Pi0.5）在抓取、推和倾倒三项任务上平均成功率为 80%，相较于使用遥操作数据训练的策略（100%成功率）有约20%的性能差距，但验证了数据生成的有效性。
效率评估：与遥操作相比，人类演示数据收集效率提升最高可达 5.33倍，尤其在复杂双臂协调任务上优势明显。