返回列表 VLA / Vision-Language-Action 每日论文卡
Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning
论文提出了一个名为 CCoL 的新型行为克隆框架,旨在解决语言条件操作中的复合误差问题。

论文详情

Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning

2025-11-18 · 原文 · 翻译 · 2511.14396

论文提出了一个名为 CCoL 的新型行为克隆框架,旨在解决语言条件操作中的复合误差问题。 研究针对现有方法中存在的物理不连续性和语义-物理错位问题,确保时序一致的执行和细粒度的语义基础。 该框架通过视觉、语言和本体感知输入的连续协同学习,生成鲁棒且平滑的动作执行轨迹。

4 分钟读完 6 张阅读卡 The Hong Kong Polytechnic University(香港理工大学)
一眼看懂 封面预览

论文提出了一个名为 CCoL 的新型行为克隆框架,旨在解决语言条件操作中的复合误差问题。

  • 论文提出了一个名为 CCoL 的新型行为克隆框架,旨在解决语言条件操作中的复合误差问题。
  • 研究针对现有方法中存在的物理不连续性和语义-物理错位问题,确保时序一致的执行和细粒度的语义基础。
  • 该框架通过视觉、语言和本体感知输入的连续协同学习,生成鲁棒且平滑的动作执行轨迹。
Card 01 研究单位

研究单位

  • The Hong Kong Polytechnic University(香港理工大学)
  • The Education University of Hong Kong(香港教育大学)
Card 02 论文概述

论文概述

  • 论文提出了一个名为 CCoL 的新型行为克隆框架,旨在解决语言条件操作中的复合误差问题。
  • 研究针对现有方法中存在的物理不连续性和语义-物理错位问题,确保时序一致的执行和细粒度的语义基础。
  • 该框架通过视觉、语言和本体感知输入的连续协同学习,生成鲁棒且平滑的动作执行轨迹。
Card 03 核心贡献

核心贡献

  • 提出了多模态连续协同学习(MCC)机制,利用 NeuralODEs 在潜在空间中建模时间依赖性,确保平滑的动作状态转换。
  • 引入了跨模态语义-物理对齐(CSA)模块,通过双向交叉注意力机制将语言规范逐步锚定到视觉运动表征中。
  • 在三个模拟套件中取得了最先进的性能,并在真实机器人上验证了其有效性,平均相对提升 8.0%
Card 04 方法描述

方法描述

  • 采用 ViT 作为视觉编码器,RoBERTa 作为文本编码器,以及 CVAE 作为本体感知编码器。
  • 利用 Neural Ordinary Differential Equations (NeuralODEs) 建模本体感知嵌入的连续演变,构建共享潜在空间以捕获时间连贯性。
  • 设计了双向交叉注意力机制,将语言语义(如动词、名词)与视觉区域和机器人状态对齐,实现逐步的语义适应。
  • 使用目标条件解码器生成动作序列,并通过混合损失函数(包含重建损失、KL散度和不连续性惩罚)进行优化。
Card 05 数据集与资源

数据集与资源

  • 使用了 Aloha MuJoCoRLBenchFranka Kitchen 三个模拟环境数据集。
  • 真实世界实验使用了 7-DoF Franka Emika Panda 机器人和 Intel RealSense D435i RGB-D 相机。
  • 模型基于 ViT-S/BRoBERTa,在 RTX 4090 GPU 上进行训练,单任务训练时长约 5.3 小时。
Card 06 评估与结果

评估与结果

  • Aloha MuJoCo 双臂任务中,CCoL 平均成功率显著优于 ACTAWE,在人类演示的双臂插入任务中相比 DIC 提升了 19.2%
  • RLBench 中,CCoL_3D 在 3D 设置下平均成功率达到 84.9%,超越了 3DDiff
  • Franka Kitchen 长视野任务中,使用 ViT-B 骨干网络取得了 38.1% 的平均成功率。
  • 真实世界实验表明,CCoL 在未见过的物体状态下保持高成功率(如立方体放置任务 86.7%),并且显著减少了轨迹的速度和加速度波动。