一眼看懂
封面预览
论文提出 RoboPaint,一种新颖的 Real-Sim-Real 数据流水线,旨在将人类演示转换为机器人可执行的、环境特定的训练数据,以解…
- 论文提出 RoboPaint,一种新颖的 Real-Sim-Real 数据流水线,旨在将人类演示转换为机器人可执行的、环境特定的训练数据,以解…
- 核心目标是构建一个可扩展、高性价比的数据生成方案,作为传统遥操作的替代方案,用于训练灵巧操作任务中的视觉-语言-动作模型。
- 研究通过多模态数据采集、跨具身建模与渲染合成,实现了从人类演示到任意机器人形态与任意视角数据的自动化转换。
Card 01
研究单位
研究单位
- Paxini Tech.
- Shanghai Jiao Tong University
- Zhejiang University
Card 02
论文概述
论文概述
- 论文提出 RoboPaint,一种新颖的 Real-Sim-Real 数据流水线,旨在将人类演示转换为机器人可执行的、环境特定的训练数据,以解决大规模、高保真机器人演示数据获取的瓶颈问题。
- 核心目标是构建一个可扩展、高性价比的数据生成方案,作为传统遥操作的替代方案,用于训练灵巧操作任务中的视觉-语言-动作模型。
- 研究通过多模态数据采集、跨具身建模与渲染合成,实现了从人类演示到任意机器人形态与任意视角数据的自动化转换。
Card 03
核心贡献
核心贡献
- 开发了高保真多模态数据采集系统,能够同步记录11通道RGB视频、3通道RGB-D视频、15通道触觉信号和29通道关节信号。
- 提出了完整的 RoboPaint 数据处理流水线,整合姿态估计、Dex-Tactile重定向和静态场景构建,将人类演示转化为机器人可执行数据,并开源了数据处理工具包。
- 实验表明,重定向的灵巧手轨迹在10项多样化物体操作任务中成功率达 84%,使用生成数据训练的VLA模型(Pi0.5)在代表性任务上平均成功率达 80%。
Card 04
方法描述
方法描述
- 在标准化数据采集室中,使用配备多种传感器的手套和多相机阵列,同步捕获人类操作员的多模态演示数据。
- 提出一种触觉感知重定向方法,通过联合优化运动学对齐和接触一致性约束,将人类手部状态映射到目标灵巧手(Paxini DexH13)状态。
- 利用 3D Gaussian Splatting 重构部署场景,并与仿真环境(Isaac Sim)进行度量对齐。
- 在仿真环境中,结合重构的3DGS背景和高质量网格模型,驱动重定向后的机器人与物体,从任意视角渲染生成逼真的视觉观测数据,最终打包成用于训练VLA模型的多模态数据集。
Card 05
数据集与资源
数据集与资源
- 使用自建数据采集系统收集的多模态人类演示数据,包括高分辨率视频、触觉压力图和关节角度序列。
- 针对不同机器人具身(如 UR5、Paxini ToRA One)生成合成训练数据。
- 文中未明确说明具体的模型参数量与GPU/TPU训练资源。
Card 06
评估与结果
评估与结果
- 仿真评估:通过重投影分析和在 Isaac Sim 中回放,验证了数据采集和重定向的精度。触觉接触点平均误差为 3.86 mm。
- 现实世界评估:在 UR5 机器人搭载 DexH13 灵巧手上进行回放实验,跨10个物体的操作任务平均成功率为 84%。
- 模型性能评估:使用生成数据训练的VLA策略(Pi0.5)在抓取、推和倾倒三项任务上平均成功率为 80%,相较于使用遥操作数据训练的策略(100%成功率)有约20%的性能差距,但验证了数据生成的有效性。
- 效率评估:与遥操作相比,人类演示数据收集效率提升最高可达 5.33倍,尤其在复杂双臂协调任务上优势明显。