返回列表 VLA / Vision-Language-Action 每日论文卡
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
提出 RynnVLA-001,一种基于大规模视频生成预训练的视觉-语言-动作(VLA)模型,利用人类演示视频提升机器人操作能力

论文详情

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

2025-09-18 · 原文 · 翻译 · 2509.15212

提出 RynnVLA-001,一种基于大规模视频生成预训练的视觉-语言-动作(VLA)模型,利用人类演示视频提升机器人操作能力 解决机器人操作数据稀缺问题,通过两阶段预训练将人类操作技能从第一人称视频隐式迁移到机器人控制 核心挑战在于弥合高级视觉预测与低级机器人动作空间之间的差距

5 分钟读完 6 张阅读卡 DAMO Academy, Alibaba Group
一眼看懂 封面预览

提出 RynnVLA-001,一种基于大规模视频生成预训练的视觉-语言-动作(VLA)模型,利用人类演示视频提升机器人操作能力

  • 提出 RynnVLA-001,一种基于大规模视频生成预训练的视觉-语言-动作(VLA)模型,利用人类演示视频提升机器人操作能力
  • 解决机器人操作数据稀缺问题,通过两阶段预训练将人类操作技能从第一人称视频隐式迁移到机器人控制
  • 核心挑战在于弥合高级视觉预测与低级机器人动作空间之间的差距
Card 01 研究单位

研究单位

  • DAMO Academy, Alibaba Group
  • Hupan Lab
Card 02 论文概述

论文概述

  • 提出 RynnVLA-001,一种基于大规模视频生成预训练的视觉-语言-动作(VLA)模型,利用人类演示视频提升机器人操作能力
  • 解决机器人操作数据稀缺问题,通过两阶段预训练将人类操作技能从第一人称视频隐式迁移到机器人控制
  • 核心挑战在于弥合高级视觉预测与低级机器人动作空间之间的差距
Card 03 核心贡献

核心贡献

  • 提出两阶段预训练框架:第一阶段进行自我中心视频生成预训练(Ego-Centric Video Generative Pretraining),在1200万自我中心操作视频上训练图像到视频(I2V)模型;第二阶段引入人类中心轨迹感知视频建模(Human-Centric Trajectory-Aware Modeling),联合预测未来帧和人体关键点轨迹
  • 设计 ActionVAE,一种变分自编码器,将动作块压缩为紧凑的潜在嵌入,降低VLA输出空间复杂度并保证动作时序一致性
  • 构建大规模自我中心视频数据筛选流程,从网络来源过滤1200万高质量人类操作视频用于预训练
  • 在相同下游机器人数据上微调时,RynnVLA-001显著优于 GR00T N1.5Pi0 等最先进基线模型
Card 04 方法描述

方法描述

  • 采用三阶段渐进训练策略:(1)基于 Chameleon 自回归图像生成模型扩展的I2V预训练;(2)引入状态嵌入和动作预测头的轨迹感知微调;(3)迁移到机器人域的VLA微调
  • ActionVAE 编码动作块为连续潜在表示,支持人体轨迹和机器人动作两种域特定版本
  • 推理时仅预测动作嵌入,丢弃视觉token生成以提升效率,通过ActionVAE解码为可执行动作序列
  • 输入采用语言token与视觉token交错的多模态序列设计,对齐VLA推理流程
Card 05 数据集与资源

数据集与资源

  • 预训练数据:1200万自我中心人类操作视频(从Ego4D、EPIC-KITCHENS等网络来源筛选)+ 24.4万机器人操作视频(来自RT-1、BridgeData V2、DROID等)
  • 第二阶段数据EgoDex 数据集(Apple Vision Pro采集的人体关键点轨迹)
  • 机器人微调数据:自采集 LeRobot SO100 机械臂数据集,包含798条专家演示(绿色方块、草莓、笔筒插入三项任务)
  • 评估基准:Calvin Benchmark(ABC→D任务)用于消融研究
Card 06 评估与结果

评估与结果

  • 评估设置:三项真实世界操作任务(拾取放置绿色方块、草莓、笔插入笔筒),每种任务在三种场景下测试(单目标、多目标、带干扰物指令跟随)
  • 主要指标:任务成功率(SR)、单次尝试成功率(SR@1)、平均完成长度(Avg. Len.)
  • 关键结果

- 相比 GR00T N1.5(平均55.6%)和 Pi0(平均70.4%),RynnVLA-001 达到 90.6% 平均成功率

- 在干扰物场景下优势显著(91.7% vs. GR00T N1.5的56.7%和Pi0的60.0%)

- 消融实验验证两阶段预训练有效性:从零开始训练成功率仅4.4%,Chameleon初始化50.0%,加入视频预训练后84.4%,完整模型90.6%

- 384×384 分辨率优于256×256;线性动作头优于深层MLP;VAE动作表示优于原始动作预测