RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出 RynnVLA-001，一种基于大规模视频生成预训练的视觉-语言-动作（VLA）模型，利用人类演示视频提升机器人操作能力

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

提出两阶段预训练框架：第一阶段进行自我中心视频生成预训练（Ego-Centric Video Generative Pretraining），在1200万自我中心操作视频上训练图像到视频（I2V）模型；第二阶段引入人类中心轨迹感知视频建模（Human-Centric Trajectory-Aware Modeling），联合预测未来帧和人体关键点轨迹
设计 ActionVAE，一种变分自编码器，将动作块压缩为紧凑的潜在嵌入，降低VLA输出空间复杂度并保证动作时序一致性
构建大规模自我中心视频数据筛选流程，从网络来源过滤1200万高质量人类操作视频用于预训练
在相同下游机器人数据上微调时，RynnVLA-001显著优于 GR00T N1.5 和 Pi0 等最先进基线模型

Card 04 方法描述

采用三阶段渐进训练策略：（1）基于 Chameleon 自回归图像生成模型扩展的I2V预训练；（2）引入状态嵌入和动作预测头的轨迹感知微调；（3）迁移到机器人域的VLA微调
ActionVAE 编码动作块为连续潜在表示，支持人体轨迹和机器人动作两种域特定版本
推理时仅预测动作嵌入，丢弃视觉token生成以提升效率，通过ActionVAE解码为可执行动作序列
输入采用语言token与视觉token交错的多模态序列设计，对齐VLA推理流程

Card 05 数据集与资源

预训练数据：1200万自我中心人类操作视频（从Ego4D、EPIC-KITCHENS等网络来源筛选）+ 24.4万机器人操作视频（来自RT-1、BridgeData V2、DROID等）
第二阶段数据：EgoDex 数据集（Apple Vision Pro采集的人体关键点轨迹）
机器人微调数据：自采集 LeRobot SO100 机械臂数据集，包含798条专家演示（绿色方块、草莓、笔筒插入三项任务）
评估基准：Calvin Benchmark（ABC→D任务）用于消融研究

Card 06 评估与结果

- 相比 GR00T N1.5（平均55.6%）和 Pi0（平均70.4%），RynnVLA-001 达到 90.6% 平均成功率

- 在干扰物场景下优势显著（91.7% vs. GR00T N1.5的56.7%和Pi0的60.0%）

- 消融实验验证两阶段预训练有效性：从零开始训练成功率仅4.4%，Chameleon初始化50.0%，加入视频预训练后84.4%，完整模型90.6%

- 384×384 分辨率优于256×256；线性动作头优于深层MLP；VAE动作表示优于原始动作预测