论文提出 Robot State-aware Contrastive Loss (RS-CL)，用于解决 VLA（Vision-Languag…

论文详情

Contrastive Representation Regularization for Vision-Language-Action Models

2025-10-02 · 原文 · 翻译 · 2510.01711

论文提出 Robot State-aware Contrastive Loss (RS-CL)，用于解决 VLA（Vision-Language-Action）模型中预训练 VLM 表征对机器人信号（如控制动作和本体感知状态）不敏感的问题核心思想是通过对比学习，利用机器人本体感知状态的相对距离作为软监督，使 VLM 表征更好地对齐机器人物理状态 RS-CL 作为辅助目标与原有动作预测目标（flow-matchin…

5 分钟读完 6 张阅读卡 KAIST（韩国科学技术院）

一眼看懂封面预览

论文提出 Robot State-aware Contrastive Loss (RS-CL)，用于解决 VLA（Vision-Languag…

论文提出 Robot State-aware Contrastive Loss (RS-CL)，用于解决 VLA（Vision-Languag…
核心思想是通过对比学习，利用机器人本体感知状态的相对距离作为软监督，使 VLM 表征更好地对齐机器人物理状态
RS-CL 作为辅助目标与原有动作预测目标（flow-matching loss）联合优化，实现端到端训练

Card 01 研究单位

研究单位

KAIST（韩国科学技术院）
UC Berkeley（加州大学伯克利分校）
RLWRLD

Card 02 论文概述

论文概述

论文提出 Robot State-aware Contrastive Loss (RS-CL)，用于解决 VLA（Vision-Language-Action）模型中预训练 VLM 表征对机器人信号（如控制动作和本体感知状态）不敏感的问题
核心思想是通过对比学习，利用机器人本体感知状态的相对距离作为软监督，使 VLM 表征更好地对齐机器人物理状态
RS-CL 作为辅助目标与原有动作预测目标（flow-matching loss）联合优化，实现端到端训练

Card 03 核心贡献

核心贡献

提出 Robot State-aware Contrastive Loss (RS-CL)，一种显式对齐 VLM 表征与本体感知状态的新型目标函数
设计了轻量级的表征级增强方法 view cutoff，通过随机掩码某个视角的嵌入来构建对比样本
方法保持轻量且完全兼容现有 VLA 训练流程，无需额外训练阶段或精心策划的数据集
在 RoboCasa-Kitchen、LIBERO 等多任务操作基准和真实机器人实验中验证了有效性

Card 04 方法描述

方法描述

可学习汇总 token：引入可学习向量 appended 到 VLM 输出，经 adapter 处理后生成紧凑的代表性嵌入
软权重对比学习：基于本体感知状态的欧氏距离计算样本对的相似性权重，使状态接近的样本在表征空间中更接近
View cutoff 增强：随机选择一个视角并掩码其对应特征，在表征层面生成多样化的对比样本
训练目标：L = L_FM + λ * L_RS-CL，其中 λ 采用余弦 schedule 衰减

Card 05 数据集与资源

数据集与资源

数据集：RoboCasa-Kitchen（30/100/300 demos）、LIBERO（spatial/object/goal/long 四类任务）、真实机器人任务（4 个 pick-and-place + 1 个 close-lid）
基础模型：GR00T N1.5（基于 Qwen2.5-VL/Eagle 2.5）
动作解码器：16 层 DiT，0.5B 参数
投影头：2 层 MLP，隐藏维度 2048，投影维度 128

Card 06 评估与结果

评估与结果

RoboCasa-Kitchen（300 demos）：平均成功率从 65.7% 提升至 69.7%（+4.0%）
Pick-and-place 任务：从 30.3% 提升至 41.5%（+11.2%）
LIBERO：平均成功率从 95.7% 提升至 96.4%（+0.7%）
真实机器人任务：从 45.0% 提升至 58.3%（+13.3%）
消融实验：验证了当前状态距离作为软标签优于下一动作距离；view cutoff 优于其他表征增强方法