论文提出了 RDT2，一个基于 7B 参数视觉-语言模型（VLM）的机器人基础模型，旨在实现零样本跨硬件平台（cross-embodiment…

论文详情

RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

2026-02-03 · 原文 · 翻译 · 2602.03310

论文提出了 RDT2，一个基于 7B 参数视觉-语言模型（VLM）的机器人基础模型，旨在实现零样本跨硬件平台（cross-embodiment）的开放词汇任务部署。研究的核心目标是解决当前视觉-语言-动作模型面临的数据稀缺、架构效率低以及无法泛化到不同硬件平台的关键问题。论文通过重新设计硬件并收集大规模数据，探索数据与模型规模缩放对于提升机器人泛化能力的影响。

4 分钟读完 6 张阅读卡论文原文未明确列出作者所属的研究机构。

一眼看懂封面预览

论文提出了 RDT2，一个基于 7B 参数视觉-语言模型（VLM）的机器人基础模型，旨在实现零样本跨硬件平台（cross-embodiment…

论文提出了 RDT2，一个基于 7B 参数视觉-语言模型（VLM）的机器人基础模型，旨在实现零样本跨硬件平台（cross-embodiment…
研究的核心目标是解决当前视觉-语言-动作模型面临的数据稀缺、架构效率低以及无法泛化到不同硬件平台的关键问题。
论文通过重新设计硬件并收集大规模数据，探索数据与模型规模缩放对于提升机器人泛化能力的影响。

Card 01 研究单位

研究单位

论文原文未明确列出作者所属的研究机构。

Card 02 论文概述

论文概述

论文提出了 RDT2，一个基于 7B 参数视觉-语言模型（VLM）的机器人基础模型，旨在实现零样本跨硬件平台（cross-embodiment）的开放词汇任务部署。
研究的核心目标是解决当前视觉-语言-动作模型面临的数据稀缺、架构效率低以及无法泛化到不同硬件平台的关键问题。
论文通过重新设计硬件并收集大规模数据，探索数据与模型规模缩放对于提升机器人泛化能力的影响。

Card 03 核心贡献

核心贡献

构建了目前最大的开源机器人数据集之一，包含超过 10,000 小时的通用操作接口（UMI）演示数据。
提出了 RDT2 模型及其三阶段训练流程，有效结合了离散与连续动作表示的优势，并实现了实时推理。
重新设计了 UMI 硬件，提升了数据采集的可靠性、精度和多样性，为大规模数据收集奠定基础。
实验证明 RDT2 在零样本任务中能泛化到未见过的物体、场景、指令乃至机器人本体，并在复杂下游任务中超越了现有基线模型。

Card 04 方法描述

方法描述

模型训练采用三阶段流程：第一阶段使用残差矢量量化将连续动作离散化为 Token，并预训练 VLM 主干网络；第二阶段冻结 VLM 主干，训练一个基于流匹配的扩散动作专家以生成连续动作；第三阶段通过蒸馏将多步扩散模型转化为单步生成器，大幅提升推理速度。
关键创新在于将离散语言知识与连续控制通过 RVQ 和扩散模型相结合，并利用在线蒸馏策略避免策略过拟合。
硬件方面，通过采用 CNC 加工的高强度材料、红外光追踪系统以及连杆式抓手，重新设计了 UMI，解决了原始方案在可靠性、追踪精度和操作灵巧性上的不足。

Card 05 数据集与资源

数据集与资源

使用自建的大规模 UMI 数据集，包含超过 10,000 小时的操作演示，覆盖超过 100 个家庭环境。
模型主干为 7B 参数的 Qwen2.5-VL，动作专家模块参数量约为 400M。
训练资源方面未在原文摘要中明确说明具体使用 GPU/TPU 数量，但提及模型进行了大规模迭代训练。

Card 06 评估与结果

评估与结果

评估环境包括零样本测试场景（未见过的物体、场景、指令和本体）、缩放律实验以及针对复杂真实世界任务的微调实验。
主要评估指标包括任务成功率、进度得分以及动作生成频率等。
零样本实验结果显示，RDT2 能够完成基础开放词汇任务，证明了其组合泛化能力。微调实验表明，在衣物折叠、收桌、拉拉链和打乒乓球等具有挑战性的任务中，RDT2 在成功率和反应速度上均显著优于 π0-FAST 和 π0.5 等先进基线模型。消融实验验证了所提出训练策略各部分的有效性。