返回列表 VLA / Vision-Language-Action 每日论文卡
CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos
提出 CLAP (Contrastive Latent Action Pretraining) 框架,旨在解决从人类视频学习视觉-语言-动作模…

论文详情

CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos

2026-01-07 · 原文 · 翻译 · 2601.04061

提出 CLAP (Contrastive Latent Action Pretraining) 框架,旨在解决从人类视频学习视觉-语言-动作模型的问题 核心问题:现有潜在动作模型 (Latent Action Models) 存在视觉纠缠问题,学习到的表示夹杂背景变化、物体形变等噪声,而非纯操作技能 研究目标:通过对比学习将人类视频的视觉潜在空间与机器人轨迹的本体感受潜在空间进行对齐,实现从人类视频到机器人执行的技…

5 分钟读完 6 张阅读卡 清华大学 (Tsinghua University)
一眼看懂 封面预览

提出 CLAP (Contrastive Latent Action Pretraining) 框架,旨在解决从人类视频学习视觉-语言-动作模…

  • 提出 CLAP (Contrastive Latent Action Pretraining) 框架,旨在解决从人类视频学习视觉-语言-动作模…
  • 核心问题:现有潜在动作模型 (Latent Action Models) 存在视觉纠缠问题,学习到的表示夹杂背景变化、物体形变等噪声,而非纯操…
  • 研究目标:通过对比学习将人类视频的视觉潜在空间与机器人轨迹的本体感受潜在空间进行对齐,实现从人类视频到机器人执行的技能迁移
Card 01 研究单位

研究单位

  • 清华大学 (Tsinghua University)
  • 星射线机器人 (Astribot)
  • 香港大学 (University of Hong Kong)
  • 麻省理工学院 (MIT)
Card 02 论文概述

论文概述

  • 提出 CLAP (Contrastive Latent Action Pretraining) 框架,旨在解决从人类视频学习视觉-语言-动作模型的问题
  • 核心问题:现有潜在动作模型 (Latent Action Models) 存在视觉纠缠问题,学习到的表示夹杂背景变化、物体形变等噪声,而非纯操作技能
  • 研究目标:通过对比学习将人类视频的视觉潜在空间与机器人轨迹的本体感受潜在空间进行对齐,实现从人类视频到机器人执行的技能迁移
Card 03 核心贡献

核心贡献

  • 提出 CLAP 框架,通过对比学习明确对齐人类视频的视觉潜在空间与机器人动作空间,过滤视觉噪声
  • 开发 CLAP-NTP:自回归 VLA 模型,利用对齐空间实现稳健的指令跟随和零样本泛化,仅通过观察人类视频即可迁移到新物体
  • 设计 CLAP-RF:基于 Rectified Flow 的高频控制器,实现 183ms 推理延迟(NVIDIA RTX 3090),在精细操作任务中超越 π0 等先进模型
  • 引入 Knowledge Matching (KM) 正则化策略,在微调过程中防止灾难性遗忘,保留预训练知识
Card 04 方法描述

方法描述

  • Act-VAE:使用 VQ-VAE 将连续机器人动作序列量化为离散动作 token 码本
  • VD-VAE (Vision-Dynamic VQ-VAE):逆动力学模型,将视频帧转换分解为动作相关潜在和动作无关潜在,利用 SigLIP 对比损失对齐视觉潜在与动作潜在
  • 对比学习机制:使用 Sigmoid Loss for Language-Image Pre-training (SigLIP) 优化正负样本对的相似度
  • 双公式 VLA 框架:CLAP-NTP(下一个 Token 预测)用于离散推理规划,CLAP-RF(Rectified Flow)用于连续高频控制
  • 知识匹配:通过 KL 散度约束,将策略更新锚定在预训练模型的信任区域内
Card 05 数据集与资源

数据集与资源

  • 数据集

- AgiBot World Beta:约 10 万条轨迹,1500 小时双手机器人交互数据

- 自收集 Astribot S1 数据:27000 条轨迹,约 50 小时,通过 VR 遥操作收集

- Ego4D:90 小时人类操作视频

  • 基础模型:Qwen3VL-4B 作为 VLM 主干
  • 训练配置

- CLAP-NTP:150,000 步,峰值学习率 5×10⁻⁵

- CLAP-RF:80,000 步,峰值学习率 5×10⁻⁵

  • 视觉特征:DINOv3 预训练 backbone
Card 06 评估与结果

评估与结果

  • 评估环境:真实机器人部署 (Astribot S1 双臂平台),模拟环境 (LIBERO)
  • 主要任务:Pick and Place、包装玩偶、T 恤折叠、制作花束等
  • 关键结果

- CLAP 在多个任务中显著优于基线方法

- CLAP-NTP 成功实现零样本泛化,仅通过人类视频学习即可控制新物体

- CLAP-RF 在精细操作任务中表现优于 π0

- 消融实验验证了对比学习和 Act-VAE 压缩率的重要性