LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction

论文详情

LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction

2025-06-16 · 原文 · 翻译 · 2506.13751

论文提出了 LeVERB (Latent Vision-Language-Encoded Robot Behavior)，这是一个用于人形机器人全身控制的分层潜在指令跟随框架。旨在解决现有视觉-语言-动作 (VLA) 模型依赖手工设计的低维动作词汇（如末端执行器位姿），限制了人形机器人敏捷全身行为的问题。论文还引入了 LeVERB-Bench，这是第一个具备照片级真实感、可用于闭环评估的人形机器人视觉-语言全身…

5 分钟读完 6 张阅读卡 University of California Berkeley

一眼看懂封面预览

论文提出了 LeVERB (Latent Vision-Language-Encoded Robot Behavior)，这是一个用于人形机器…

论文提出了 LeVERB (Latent Vision-Language-Encoded Robot Behavior)，这是一个用于人形机器…
旨在解决现有视觉-语言-动作 (VLA) 模型依赖手工设计的低维动作词汇（如末端执行器位姿），限制了人形机器人敏捷全身行为的问题。
论文还引入了 LeVERB-Bench，这是第一个具备照片级真实感、可用于闭环评估的人形机器人视觉-语言全身控制基准。

Card 01 研究单位

研究单位

University of California Berkeley
Norwegian University of Science and Technology
Simon Fraser University
Carnegie Mellon University

Card 02 论文概述

论文概述

论文提出了 LeVERB (Latent Vision-Language-Encoded Robot Behavior)，这是一个用于人形机器人全身控制的分层潜在指令跟随框架。
旨在解决现有视觉-语言-动作 (VLA) 模型依赖手工设计的低维动作词汇（如末端执行器位姿），限制了人形机器人敏捷全身行为的问题。
论文还引入了 LeVERB-Bench，这是第一个具备照片级真实感、可用于闭环评估的人形机器人视觉-语言全身控制基准。

Card 03 核心贡献

核心贡献

提出了 LeVERB-Bench，包含超过 150 个任务和 10 个类别的闭环评估基准，并提供可扩展的合成数据生成管线。
提出了首个基于潜在视觉-语言动作的人形机器人全身控制模型 LeVERB，采用双过程架构解耦高层语义推理与低层动态控制。
开发了基于 CVAE 的高层策略，能够从合成演示中学习结构化的潜在动作空间（潜在动词词汇表）。
实现了在真实人形机器人硬件（Unitree G1）上的零样本仿真到现实部署。

Card 04 方法描述

方法描述

模型采用双过程架构：System 2 (LeVERB-VL) 负责高层视觉-语言指令处理，System 1 (LeVERB-A) 负责低层反应式控制。
LeVERB-VL 使用 SigLiP 视觉和文本编码器结合 Transformer 主干，通过 残差 CVAE 架构将视觉和语言输入映射为潜在动作向量 $z$。
训练目标包含轨迹重建、分布对齐和对抗分类，利用判别器对齐有视觉输入和无视觉输入数据的潜在空间。
LeVERB-A 是一个强化学习策略，通过 DAgger 算法从教师策略中蒸馏得到，以潜在向量 $z$ 和本体感受观察为输入，输出关节位置动作。

Card 05 数据集与资源

数据集与资源

使用自建的 LeVERB-Bench 数据集，包含 17.1 小时的照片级真实感运动回放和 2.7 小时的纯语言数据。
运动数据来源于 AMASS 和 LAFAN 数据集的重定向动捕数据。
使用 IsaacSim 进行光线追踪渲染和物理仿真。
训练硬件使用 2 块 NVIDIA Ada 6000 GPU，真实世界部署使用 Unitree G1 机器人和 RTX 4090 GPU。

Card 06 评估与结果

评估与结果

在 LeVERB-Bench 的闭环仿真环境中进行评估，任务包括导航、移动、坐下和伸手等。
主要指标为任务成功率，LeVERB 整体成功率达到 58.5%，在简单视觉导航任务中达到 80%。
相比于朴素的分层 VLA 实现，LeVERB 的性能提升了 7.8 倍。
消融实验验证了判别器、运动编码器和采样过程的有效性。
在真实 Unitree G1 机器人上实现了零样本部署，成功执行了视觉导航和坐下任务。