返回列表 VLA / Vision-Language-Action 每日论文卡
UniCoD: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning
论文提出 UniCoD,一个统一的视觉-语言-动作(VLA)框架,通过结合离散表示(语言理解)和连续表示(视觉预测)来增强机器人策略学习

论文详情

UniCoD: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning

2025-10-12 · 原文 · 翻译 · 2510.10642

论文提出 UniCoD,一个统一的视觉-语言-动作(VLA)框架,通过结合离散表示(语言理解)和连续表示(视觉预测)来增强机器人策略学习 旨在解决现有 VLA 模型的局限性:基于 VLM 的方法缺乏动态建模能力,而基于生成模型的方法缺乏语义理解能力 核心目标是通过大规模预训练(超过 100 万条互联网规模的指令操作视频)学习高维视觉特征的动态建模,然后通过机器人具体数据微调,学习从预测表示到动作令牌的映射

6 分钟读完 6 张阅读卡 清华大学交叉信息研究院 (Institute for Interdisciplinary Inform…
一眼看懂 封面预览

论文提出 UniCoD,一个统一的视觉-语言-动作(VLA)框架,通过结合离散表示(语言理解)和连续表示(视觉预测)来增强机器人策略学习

  • 论文提出 UniCoD,一个统一的视觉-语言-动作(VLA)框架,通过结合离散表示(语言理解)和连续表示(视觉预测)来增强机器人策略学习
  • 旨在解决现有 VLA 模型的局限性:基于 VLM 的方法缺乏动态建模能力,而基于生成模型的方法缺乏语义理解能力
  • 核心目标是通过大规模预训练(超过 100 万条互联网规模的指令操作视频)学习高维视觉特征的动态建模,然后通过机器人具体数据微调,学习从预测表示…
Card 01 研究单位

研究单位

  • 清华大学交叉信息研究院 (Institute for Interdisciplinary Information Sciences, Tsinghua University)
  • 上海期智研究院 (Shanghai Qizhi Institute)
  • 北京大学 (Peking University)
  • 上海人工智能实验室 (Shanghai AI Lab)
Card 02 论文概述

论文概述

  • 论文提出 UniCoD,一个统一的视觉-语言-动作(VLA)框架,通过结合离散表示(语言理解)和连续表示(视觉预测)来增强机器人策略学习
  • 旨在解决现有 VLA 模型的局限性:基于 VLM 的方法缺乏动态建模能力,而基于生成模型的方法缺乏语义理解能力
  • 核心目标是通过大规模预训练(超过 100 万条互联网规模的指令操作视频)学习高维视觉特征的动态建模,然后通过机器人具体数据微调,学习从预测表示到动作令牌的映射
Card 03 核心贡献

核心贡献

  • 提出一种新型 VLA 模型,集成离散和连续表示用于理解和学习动态世界模型,在大规模机器人及人类演示数据上进行预训练,实现有效的具身任务迁移
  • 提出两阶段训练框架,在保持对齐的中间表示的同时对齐动作表示
  • 采用 MoT(Mixture-of-Transformers)架构处理文本理解和规划、连续视觉预测及动作执行
  • 在模拟环境和真实世界分布外任务中均实现 9% 和 12% 的性能提升
Card 04 方法描述

方法描述

  • 第一阶段(联合视觉-语言嵌入学习):使用 TI2E(Text-Image to Embedding)任务,在机器人视频、人类演示视频和通用 VQA 数据上进行预训练,离散分支使用交叉熵损失,连续分支使用 MSE 损失
  • 第二阶段(统一动作建模):引入动作专家和状态专家,使用 Flow Matching 建模动作分布,同时继续预测未来视觉状态
  • 采用 PaliGemma 作为 VLM 专家,使用 SigLIP 进行连续视觉特征编码
  • 使用 Mixture-of-Transformers 架构,在模态内使用双向注意力,跨模态使用因果掩码
Card 05 数据集与资源

数据集与资源

  • 预训练数据:32 万条机器人视频(带细粒度子任务描述)、87 万条机器人和人类操作视频(带任务指令)、56 万条通用视觉-语言问答数据
  • 微调数据:模拟环境和真实机器人环境收集的 VLA 数据
  • 模拟基准:Calvin(ABC-D 分割)、SimplerEnv(WindowX 和 Google Robot)
  • 真实机器人:Franka Emika Panda 臂(7-DoF,2000 条轨迹)和 XArm + 12-DoF X-Hand(4000 条轨迹)
  • 训练资源:8 张 A100 GPU,22k 步微调,batch size 1024,学习率 5×10⁻⁵
Card 06 评估与结果

评估与结果

  • SimplerEnv-WindowX:UniCoD 达到 71.0% 平均成功率,优于 π₀ 的 49.8%
  • SimplerEnv-Google Robot:UniCoD 达到 78.4% 平均成功率
  • Calvin ABC→D:平均完成序列长度为 4.11,优于 UP-VLA 的 4.08
  • 真实世界 Franka Panda:在 Seen 任务上 88% 成功率,Unseen 任务上 80% 成功率,显著优于基线
  • 真实世界 XArm:在未见任务上展现出显著的对象和场景泛化优势,能够成功抓取完全未见过的对象