返回列表 VLA / Vision-Language-Action 每日论文卡

LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction

论文详情

LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction

2025-06-16 · 原文 · 翻译 · 2506.13751

论文提出了 LeVERB (Latent Vision-Language-Encoded Robot Behavior),这是一个用于人形机器人全身控制的分层潜在指令跟随框架。 旨在解决现有视觉-语言-动作 (VLA) 模型依赖手工设计的低维动作词汇(如末端执行器位姿),限制了人形机器人敏捷全身行为的问题。 论文还引入了 LeVERB-Bench,这是第一个具备照片级真实感、可用于闭环评估的人形机器人视觉-语言全身…

5 分钟读完 6 张阅读卡 University of California Berkeley
一眼看懂 封面预览

论文提出了 LeVERB (Latent Vision-Language-Encoded Robot Behavior),这是一个用于人形机器…

  • 论文提出了 LeVERB (Latent Vision-Language-Encoded Robot Behavior),这是一个用于人形机器…
  • 旨在解决现有视觉-语言-动作 (VLA) 模型依赖手工设计的低维动作词汇(如末端执行器位姿),限制了人形机器人敏捷全身行为的问题。
  • 论文还引入了 LeVERB-Bench,这是第一个具备照片级真实感、可用于闭环评估的人形机器人视觉-语言全身控制基准。
Card 01 研究单位

研究单位

  • University of California Berkeley
  • Norwegian University of Science and Technology
  • Simon Fraser University
  • Carnegie Mellon University
Card 02 论文概述

论文概述

  • 论文提出了 LeVERB (Latent Vision-Language-Encoded Robot Behavior),这是一个用于人形机器人全身控制的分层潜在指令跟随框架。
  • 旨在解决现有视觉-语言-动作 (VLA) 模型依赖手工设计的低维动作词汇(如末端执行器位姿),限制了人形机器人敏捷全身行为的问题。
  • 论文还引入了 LeVERB-Bench,这是第一个具备照片级真实感、可用于闭环评估的人形机器人视觉-语言全身控制基准。
Card 03 核心贡献

核心贡献

  • 提出了 LeVERB-Bench,包含超过 150 个任务和 10 个类别的闭环评估基准,并提供可扩展的合成数据生成管线。
  • 提出了首个基于潜在视觉-语言动作的人形机器人全身控制模型 LeVERB,采用双过程架构解耦高层语义推理与低层动态控制。
  • 开发了基于 CVAE 的高层策略,能够从合成演示中学习结构化的潜在动作空间(潜在动词词汇表)。
  • 实现了在真实人形机器人硬件(Unitree G1)上的零样本仿真到现实 部署。
Card 04 方法描述

方法描述

  • 模型采用双过程架构:System 2 (LeVERB-VL) 负责高层视觉-语言指令处理,System 1 (LeVERB-A) 负责低层反应式控制。
  • LeVERB-VL 使用 SigLiP 视觉和文本编码器结合 Transformer 主干,通过 残差 CVAE 架构将视觉和语言输入映射为潜在动作向量 $z$。
  • 训练目标包含轨迹重建、分布对齐和对抗分类,利用判别器对齐有视觉输入和无视觉输入数据的潜在空间。
  • LeVERB-A 是一个强化学习策略,通过 DAgger 算法从教师策略中蒸馏得到,以潜在向量 $z$ 和本体感受观察为输入,输出关节位置动作。
Card 05 数据集与资源

数据集与资源

  • 使用自建的 LeVERB-Bench 数据集,包含 17.1 小时的照片级真实感运动回放和 2.7 小时的纯语言数据。
  • 运动数据来源于 AMASSLAFAN 数据集的重定向动捕数据。
  • 使用 IsaacSim 进行光线追踪渲染和物理仿真。
  • 训练硬件使用 2 块 NVIDIA Ada 6000 GPU,真实世界部署使用 Unitree G1 机器人和 RTX 4090 GPU。
Card 06 评估与结果

评估与结果

  • LeVERB-Bench 的闭环仿真环境中进行评估,任务包括导航、移动、坐下和伸手等。
  • 主要指标为任务成功率,LeVERB 整体成功率达到 58.5%,在简单视觉导航任务中达到 80%
  • 相比于朴素的分层 VLA 实现,LeVERB 的性能提升了 7.8 倍
  • 消融实验验证了判别器、运动编码器和采样过程的有效性。
  • 在真实 Unitree G1 机器人上实现了零样本部署,成功执行了视觉导航和坐下任务。