提出 ConLA（Contrastive Latent Action Learning）框架，从人类演示视频中无监督地学习机器人操作策略，解决…

论文详情

ConLA: Contrastive Latent Action Learning from Human Videos for Robotic Manipulation

2026-01-31 · 原文 · 翻译 · 2602.00557

提出 ConLA（Contrastive Latent Action Learning）框架，从人类演示视频中无监督地学习机器人操作策略，解决视觉-语言-动作（VLA）模型依赖昂贵机器人遥操作数据的局限性核心问题是现有基于 VQ-VAE 的潜在动作学习方法存在捷径学习问题：模型通过记忆未来帧的视觉内容来最小化重建误差，而非真正学习运动动态，导致提取的潜在动作混杂无关视觉特征目标是利用动作类别先验和时序线索，通过…

6 分钟读完 6 张阅读卡哈尔滨工业大学（深圳）

一眼看懂封面预览

提出 ConLA（Contrastive Latent Action Learning）框架，从人类演示视频中无监督地学习机器人操作策略，解决…

提出 ConLA（Contrastive Latent Action Learning）框架，从人类演示视频中无监督地学习机器人操作策略，解决…
核心问题是现有基于 VQ-VAE 的潜在动作学习方法存在捷径学习问题：模型通过记忆未来帧的视觉内容来最小化重建误差，而非真正学习运动动态，导致…
目标是利用动作类别先验和时序线索，通过对比学习机制将运动信息从视觉噪声中解纠缠出来，提取语义一致且紧凑的潜在动作表示

Card 01 研究单位

研究单位

哈尔滨工业大学（深圳）
中兴通讯股份有限公司移动网络与移动多媒体技术国家重点实验室
上海交通大学
中南大学

Card 02 论文概述

论文概述

提出 ConLA（Contrastive Latent Action Learning）框架，从人类演示视频中无监督地学习机器人操作策略，解决视觉-语言-动作（VLA）模型依赖昂贵机器人遥操作数据的局限性
核心问题是现有基于 VQ-VAE 的潜在动作学习方法存在捷径学习问题：模型通过记忆未来帧的视觉内容来最小化重建误差，而非真正学习运动动态，导致提取的潜在动作混杂无关视觉特征
目标是利用动作类别先验和时序线索，通过对比学习机制将运动信息从视觉噪声中解纠缠出来，提取语义一致且紧凑的潜在动作表示

Card 03 核心贡献

核心贡献

识别捷径学习问题：指出 VQ-VAE 基于的潜在动作学习方法容易过度依赖视觉外观而非建模真实运动动态
对比解纠缠架构：提出利用动作类别先验和时序先验的对比学习模块，确保相同语义的动作在不同环境和本体间紧凑聚类
显著性能提升：在 SimplerEnv 基准上比 LAPA 提升 12.5%，真实世界测试中提升 15.9%
首次超越机器人数据预训练：仅使用人类视频预训练的策略首次超越了使用真实机器人轨迹预训练的策略（提升 1.1%）

Card 04 方法描述

方法描述

对比潜在动作学习：采用 VQ-VAE 框架从视频帧对中提取潜在动作，但引入动作中心对比学习（Action-Centric Contrastive Learning）利用动作类别标签监督，使同类动作的潜在表示紧凑聚集
视觉中心对比学习：利用时间反转增强（reverse-order augmentation），将反向帧对作为正样本，引导模型提取运动不变的内容信息，分离运动动态与静态视觉线索
潜在动作预训练：使用训练好的潜在动作量化编码器作为逆动力学模型，从视频中提取潜在动作作为伪标签，训练自回归 VLM 预测潜在动作 tokens
动作微调：使用少量真实机器人轨迹微调策略，将潜在动作映射到可执行的末端执行器动作

Card 05 数据集与资源

数据集与资源

BridgeV2：机器人操作数据集，包含 60,096 条轨迹，涵盖 24 种环境
Something-SomethingV2：人类视频数据集，包含 220,847 个视频片段，174 个动作类别
SimplerEnv：模拟评估环境，包含 4 个任务（放置勺子、放置胡萝卜、堆叠积木、放入篮子）
模型基座：基于 7B Large World Model (LWM)
Codebook 大小：动作类别数为 80（BridgeV2）和 174（Something-SomethingV2）

Card 06 评估与结果

评估与结果

SimplerEnv 基准：使用 BridgeV2 预训练时 ConLA 达到 60.4% 平均成功率，比 LAPA 提升 3.1%；使用人类视频预训练时达到 64.6%，比 LAPA 提升 12.5%，且超越 ACTIONVLA（真实机器人轨迹预训练）1.1%
真实世界实验：使用人类视频预训练的 ConLA 达到 48.2% 平均成功率，超越 LAPA 15.9%
消融实验：动作中心对比学习显著改善潜在动作表示，时序反转增强进一步分离动作与视觉特征，数据规模可扩展性强（10% 到 100% 数据均优于基线）
潜在动作分析：t-SNE 可视化显示 ConLA 产生的潜在动作空间更紧凑、同类别动作形成紧密聚类，有效缓解捷径学习