CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos

一眼看懂封面预览

提出 CLAP (Contrastive Latent Action Pretraining) 框架，旨在解决从人类视频学习视觉-语言-动作模…

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

提出 CLAP 框架，通过对比学习明确对齐人类视频的视觉潜在空间与机器人动作空间，过滤视觉噪声
开发 CLAP-NTP：自回归 VLA 模型，利用对齐空间实现稳健的指令跟随和零样本泛化，仅通过观察人类视频即可迁移到新物体
设计 CLAP-RF：基于 Rectified Flow 的高频控制器，实现 183ms 推理延迟（NVIDIA RTX 3090），在精细操作任务中超越 π0 等先进模型
引入 Knowledge Matching (KM) 正则化策略，在微调过程中防止灾难性遗忘，保留预训练知识

Card 04 方法描述

Act-VAE：使用 VQ-VAE 将连续机器人动作序列量化为离散动作 token 码本
VD-VAE (Vision-Dynamic VQ-VAE)：逆动力学模型，将视频帧转换分解为动作相关潜在和动作无关潜在，利用 SigLIP 对比损失对齐视觉潜在与动作潜在
对比学习机制：使用 Sigmoid Loss for Language-Image Pre-training (SigLIP) 优化正负样本对的相似度
双公式 VLA 框架：CLAP-NTP（下一个 Token 预测）用于离散推理规划，CLAP-RF（Rectified Flow）用于连续高频控制
知识匹配：通过 KL 散度约束，将策略更新锚定在预训练模型的信任区域内

Card 05 数据集与资源

- AgiBot World Beta：约 10 万条轨迹，1500 小时双手机器人交互数据

- 自收集 Astribot S1 数据：27000 条轨迹，约 50 小时，通过 VR 遥操作收集

- Ego4D：90 小时人类操作视频

- CLAP-NTP：150,000 步，峰值学习率 5×10⁻⁵

- CLAP-RF：80,000 步，峰值学习率 5×10⁻⁵

Card 06 评估与结果

- CLAP 在多个任务中显著优于基线方法

- CLAP-NTP 成功实现零样本泛化，仅通过人类视频学习即可控制新物体

- CLAP-RF 在精细操作任务中表现优于 π0

- 消融实验验证了对比学习和 Act-VAE 压缩率的重要性