论文提出 UniCoD，一个统一的视觉-语言-动作（VLA）框架，通过结合离散表示（语言理解）和连续表示（视觉预测）来增强机器人策略学习

论文详情

UniCoD: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning

2025-10-12 · 原文 · 翻译 · 2510.10642

论文提出 UniCoD，一个统一的视觉-语言-动作（VLA）框架，通过结合离散表示（语言理解）和连续表示（视觉预测）来增强机器人策略学习旨在解决现有 VLA 模型的局限性：基于 VLM 的方法缺乏动态建模能力，而基于生成模型的方法缺乏语义理解能力核心目标是通过大规模预训练（超过 100 万条互联网规模的指令操作视频）学习高维视觉特征的动态建模，然后通过机器人具体数据微调，学习从预测表示到动作令牌的映射

6 分钟读完 6 张阅读卡清华大学交叉信息研究院 (Institute for Interdisciplinary Inform…

一眼看懂封面预览

论文提出 UniCoD，一个统一的视觉-语言-动作（VLA）框架，通过结合离散表示（语言理解）和连续表示（视觉预测）来增强机器人策略学习

论文提出 UniCoD，一个统一的视觉-语言-动作（VLA）框架，通过结合离散表示（语言理解）和连续表示（视觉预测）来增强机器人策略学习
旨在解决现有 VLA 模型的局限性：基于 VLM 的方法缺乏动态建模能力，而基于生成模型的方法缺乏语义理解能力
核心目标是通过大规模预训练（超过 100 万条互联网规模的指令操作视频）学习高维视觉特征的动态建模，然后通过机器人具体数据微调，学习从预测表示…

Card 01 研究单位

研究单位

清华大学交叉信息研究院 (Institute for Interdisciplinary Information Sciences, Tsinghua University)
上海期智研究院 (Shanghai Qizhi Institute)
北京大学 (Peking University)
上海人工智能实验室 (Shanghai AI Lab)

Card 02 论文概述

论文概述

论文提出 UniCoD，一个统一的视觉-语言-动作（VLA）框架，通过结合离散表示（语言理解）和连续表示（视觉预测）来增强机器人策略学习
旨在解决现有 VLA 模型的局限性：基于 VLM 的方法缺乏动态建模能力，而基于生成模型的方法缺乏语义理解能力
核心目标是通过大规模预训练（超过 100 万条互联网规模的指令操作视频）学习高维视觉特征的动态建模，然后通过机器人具体数据微调，学习从预测表示到动作令牌的映射

Card 03 核心贡献

核心贡献

提出一种新型 VLA 模型，集成离散和连续表示用于理解和学习动态世界模型，在大规模机器人及人类演示数据上进行预训练，实现有效的具身任务迁移
提出两阶段训练框架，在保持对齐的中间表示的同时对齐动作表示
采用 MoT（Mixture-of-Transformers）架构处理文本理解和规划、连续视觉预测及动作执行
在模拟环境和真实世界分布外任务中均实现 9% 和 12% 的性能提升

Card 04 方法描述

方法描述

第一阶段（联合视觉-语言嵌入学习）：使用 TI2E（Text-Image to Embedding）任务，在机器人视频、人类演示视频和通用 VQA 数据上进行预训练，离散分支使用交叉熵损失，连续分支使用 MSE 损失
第二阶段（统一动作建模）：引入动作专家和状态专家，使用 Flow Matching 建模动作分布，同时继续预测未来视觉状态
采用 PaliGemma 作为 VLM 专家，使用 SigLIP 进行连续视觉特征编码
使用 Mixture-of-Transformers 架构，在模态内使用双向注意力，跨模态使用因果掩码

Card 05 数据集与资源

数据集与资源

预训练数据：32 万条机器人视频（带细粒度子任务描述）、87 万条机器人和人类操作视频（带任务指令）、56 万条通用视觉-语言问答数据
微调数据：模拟环境和真实机器人环境收集的 VLA 数据
模拟基准：Calvin（ABC-D 分割）、SimplerEnv（WindowX 和 Google Robot）
真实机器人：Franka Emika Panda 臂（7-DoF，2000 条轨迹）和 XArm + 12-DoF X-Hand（4000 条轨迹）
训练资源：8 张 A100 GPU，22k 步微调，batch size 1024，学习率 5×10⁻⁵

Card 06 评估与结果

评估与结果

SimplerEnv-WindowX：UniCoD 达到 71.0% 平均成功率，优于 π₀ 的 49.8%
SimplerEnv-Google Robot：UniCoD 达到 78.4% 平均成功率
Calvin ABC→D：平均完成序列长度为 4.11，优于 UP-VLA 的 4.08
真实世界 Franka Panda：在 Seen 任务上 88% 成功率，Unseen 任务上 80% 成功率，显著优于基线
真实世界 XArm：在未见任务上展现出显著的对象和场景泛化优势，能够成功抓取完全未见过的对象