返回列表 VLA / Vision-Language-Action 每日论文卡
RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization
论文提出了 RDT2,一个基于 7B 参数视觉-语言模型(VLM)的机器人基础模型,旨在实现零样本跨硬件平台(cross-embodiment…

论文详情

RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization

2026-02-03 · 原文 · 翻译 · 2602.03310

论文提出了 RDT2,一个基于 7B 参数视觉-语言模型(VLM)的机器人基础模型,旨在实现零样本跨硬件平台(cross-embodiment)的开放词汇任务部署。 研究的核心目标是解决当前视觉-语言-动作模型面临的数据稀缺、架构效率低以及无法泛化到不同硬件平台的关键问题。 论文通过重新设计硬件并收集大规模数据,探索数据与模型规模缩放对于提升机器人泛化能力的影响。

4 分钟读完 6 张阅读卡 论文原文未明确列出作者所属的研究机构。
一眼看懂 封面预览

论文提出了 RDT2,一个基于 7B 参数视觉-语言模型(VLM)的机器人基础模型,旨在实现零样本跨硬件平台(cross-embodiment…

  • 论文提出了 RDT2,一个基于 7B 参数视觉-语言模型(VLM)的机器人基础模型,旨在实现零样本跨硬件平台(cross-embodiment…
  • 研究的核心目标是解决当前视觉-语言-动作模型面临的数据稀缺、架构效率低以及无法泛化到不同硬件平台的关键问题。
  • 论文通过重新设计硬件并收集大规模数据,探索数据与模型规模缩放对于提升机器人泛化能力的影响。
Card 01 研究单位

研究单位

  • 论文原文未明确列出作者所属的研究机构。
Card 02 论文概述

论文概述

  • 论文提出了 RDT2,一个基于 7B 参数视觉-语言模型(VLM)的机器人基础模型,旨在实现零样本跨硬件平台(cross-embodiment)的开放词汇任务部署。
  • 研究的核心目标是解决当前视觉-语言-动作模型面临的数据稀缺、架构效率低以及无法泛化到不同硬件平台的关键问题。
  • 论文通过重新设计硬件并收集大规模数据,探索数据与模型规模缩放对于提升机器人泛化能力的影响。
Card 03 核心贡献

核心贡献

  • 构建了目前最大的开源机器人数据集之一,包含超过 10,000 小时的通用操作接口(UMI)演示数据。
  • 提出了 RDT2 模型及其三阶段训练流程,有效结合了离散与连续动作表示的优势,并实现了实时推理。
  • 重新设计了 UMI 硬件,提升了数据采集的可靠性、精度和多样性,为大规模数据收集奠定基础。
  • 实验证明 RDT2 在零样本任务中能泛化到未见过的物体、场景、指令乃至机器人本体,并在复杂下游任务中超越了现有基线模型。
Card 04 方法描述

方法描述

  • 模型训练采用三阶段流程:第一阶段使用残差矢量量化将连续动作离散化为 Token,并预训练 VLM 主干网络;第二阶段冻结 VLM 主干,训练一个基于流匹配的扩散动作专家以生成连续动作;第三阶段通过蒸馏将多步扩散模型转化为单步生成器,大幅提升推理速度。
  • 关键创新在于将离散语言知识与连续控制通过 RVQ 和扩散模型相结合,并利用在线蒸馏策略避免策略过拟合。
  • 硬件方面,通过采用 CNC 加工的高强度材料、红外光追踪系统以及连杆式抓手,重新设计了 UMI,解决了原始方案在可靠性、追踪精度和操作灵巧性上的不足。
Card 05 数据集与资源

数据集与资源

  • 使用自建的大规模 UMI 数据集,包含超过 10,000 小时的操作演示,覆盖超过 100 个家庭环境。
  • 模型主干为 7B 参数Qwen2.5-VL,动作专家模块参数量约为 400M
  • 训练资源方面未在原文摘要中明确说明具体使用 GPU/TPU 数量,但提及模型进行了大规模迭代训练。
Card 06 评估与结果

评估与结果

  • 评估环境包括零样本测试场景(未见过的物体、场景、指令和本体)、缩放律实验以及针对复杂真实世界任务的微调实验。
  • 主要评估指标包括任务成功率、进度得分以及动作生成频率等。
  • 零样本实验结果显示,RDT2 能够完成基础开放词汇任务,证明了其组合泛化能力。微调实验表明,在衣物折叠、收桌、拉拉链和打乒乓球等具有挑战性的任务中,RDT2 在成功率和反应速度上均显著优于 π0-FASTπ0.5 等先进基线模型。消融实验验证了所提出训练策略各部分的有效性。