一眼看懂
封面预览
提出 Avi,一种新型的 3D Vision-Language-Action (VLA) 架构,将机器人动作生成重新定义为3D 感知和空间推理…
- 提出 Avi,一种新型的 3D Vision-Language-Action (VLA) 架构,将机器人动作生成重新定义为3D 感知和空间推理…
- 核心创新:模型不依赖于历史动作 tokens 进行训练,而是通过 3D 多模态大语言模型 (ShapeLLM-Omni) 预测下一帧点云,并利…
- 方法对遮挡、相机姿态变化和视角变化具有很强的鲁棒性,弥合了高层语言指令与低层执行之间的鸿沟
Card 01
研究单位
研究单位
- Harris Song — University of California, Los Angeles
- Long Le — University of Pennsylvania
Card 02
论文概述
论文概述
- 提出 Avi,一种新型的 3D Vision-Language-Action (VLA) 架构,将机器人动作生成重新定义为3D 感知和空间推理问题,而非低层次策略学习
- 核心创新:模型不依赖于历史动作 tokens 进行训练,而是通过 3D 多模态大语言模型 (ShapeLLM-Omni) 预测下一帧点云,并利用经典几何变换计算动作
- 方法对遮挡、相机姿态变化和视角变化具有很强的鲁棒性,弥合了高层语言指令与低层执行之间的鸿沟
Card 03
核心贡献
核心贡献
- AVI 架构:将 3D 多模态大语言模型与体素推理相结合,通过预测目标条件下的 3D 体积来表示环境状态,而非直接输出动作 tokens
- 位置量化技术 (Location Quantization):提出一种将空间信息离散化的通用方法,使预训练的 3D MLLM 能够在物体级别而非场景级别进行泛化
- 语言到几何的范式转变:将传统的"语言到动作"转化为"语言到几何",生成可解释的、与形态无关的行为
- 无需动作数据的训练:仅使用历史深度图进行训练,突破了现有 VLA 模型依赖动作数据的限制
Card 04
方法描述
方法描述
- 物体分割:使用 Segment Anything Model (SAM) 将场景点云分割为多个独立的物体点云
- 位置量化:引入 768 个位置 tokens (X,Y,Z 各 256 个 bins) 和 128 个尺度 tokens,将物体位置和尺度编码为离散token
- 3D MLLM:基于 ShapeLLM-Omni 构建,使用 VQ-VAE 将体素网格编码为 8192 个离散 tokens,通过自回归变换器联合推理文本、3D 几何和位置信息
- 变换计算:使用迭代最近点 (ICP) 算法计算预测点云与原始点云之间的刚体变换 (R, t),应用于机器人末端执行器位置
Card 05
数据集与资源
数据集与资源
- 训练数据:LIBERO 数据集中的 50 个抽屉关闭任务演示,在 Robosuite 环境中使用 Franka Panda 机械臂
- 模型基础:ShapeLLM-Omni (3D 多模态大语言模型),基于 Qwen-VL 和 3D VQVAE 嵌入
- 训练设备:单张 NVIDIA A6000 GPU (48GB 内存)
- 微调方法:Low-Rank Adaptation (LoRA),rank 值 r ∈ {4, 8, 16, 32, 64},dropout p=0.05
Card 06
评估与结果
评估与结果
- 评估环境:LIBERO 数据集的两个场景 (Scene 5 和 Scene 10),每个场景进行 20 次 rollout
- 主要指标:任务成功率 (Mean success rate)
- 关键结果:
- Scene 5: 0.90 ± 0.07
- Scene 10: 0.90 ± 0.07
- 显著优于对比方法:ResNet-RNN (0.05/0.45)、ResNet-T (0.80/0.45)、ViT-T (0.90/0.60)、Diffusion Policy (0.85/0.70)
- 消融实验:位置量化技术显著提升了模型对物体位置的理解和抓取器对齐精度,增加了每场景生成的体素数量