返回列表 VLA / Vision-Language-Action 每日论文卡
Avi: Action from Volumetric Inference
提出 Avi,一种新型的 3D Vision-Language-Action (VLA) 架构,将机器人动作生成重新定义为3D 感知和空间推理…

论文详情

Avi: Action from Volumetric Inference

2025-10-07 · 原文 · 翻译 · 2510.21746

提出 Avi,一种新型的 3D Vision-Language-Action (VLA) 架构,将机器人动作生成重新定义为3D 感知和空间推理问题,而非低层次策略学习 核心创新:模型不依赖于历史动作 tokens 进行训练,而是通过 3D 多模态大语言模型 (ShapeLLM-Omni) 预测下一帧点云,并利用经典几何变换计算动作 方法对遮挡、相机姿态变化和视角变化具有很强的鲁棒性,弥合了高层语言指令与低层执行之间…

5 分钟读完 6 张阅读卡 Harris Song — University of California, Los Angeles
一眼看懂 封面预览

提出 Avi,一种新型的 3D Vision-Language-Action (VLA) 架构,将机器人动作生成重新定义为3D 感知和空间推理…

  • 提出 Avi,一种新型的 3D Vision-Language-Action (VLA) 架构,将机器人动作生成重新定义为3D 感知和空间推理…
  • 核心创新:模型不依赖于历史动作 tokens 进行训练,而是通过 3D 多模态大语言模型 (ShapeLLM-Omni) 预测下一帧点云,并利…
  • 方法对遮挡、相机姿态变化和视角变化具有很强的鲁棒性,弥合了高层语言指令与低层执行之间的鸿沟
Card 01 研究单位

研究单位

  • Harris Song — University of California, Los Angeles
  • Long Le — University of Pennsylvania
Card 02 论文概述

论文概述

  • 提出 Avi,一种新型的 3D Vision-Language-Action (VLA) 架构,将机器人动作生成重新定义为3D 感知和空间推理问题,而非低层次策略学习
  • 核心创新:模型不依赖于历史动作 tokens 进行训练,而是通过 3D 多模态大语言模型 (ShapeLLM-Omni) 预测下一帧点云,并利用经典几何变换计算动作
  • 方法对遮挡、相机姿态变化和视角变化具有很强的鲁棒性,弥合了高层语言指令与低层执行之间的鸿沟
Card 03 核心贡献

核心贡献

  • AVI 架构:将 3D 多模态大语言模型与体素推理相结合,通过预测目标条件下的 3D 体积来表示环境状态,而非直接输出动作 tokens
  • 位置量化技术 (Location Quantization):提出一种将空间信息离散化的通用方法,使预训练的 3D MLLM 能够在物体级别而非场景级别进行泛化
  • 语言到几何的范式转变:将传统的"语言到动作"转化为"语言到几何",生成可解释的、与形态无关的行为
  • 无需动作数据的训练:仅使用历史深度图进行训练,突破了现有 VLA 模型依赖动作数据的限制
Card 04 方法描述

方法描述

  • 物体分割:使用 Segment Anything Model (SAM) 将场景点云分割为多个独立的物体点云
  • 位置量化:引入 768 个位置 tokens (X,Y,Z 各 256 个 bins) 和 128 个尺度 tokens,将物体位置和尺度编码为离散token
  • 3D MLLM:基于 ShapeLLM-Omni 构建,使用 VQ-VAE 将体素网格编码为 8192 个离散 tokens,通过自回归变换器联合推理文本、3D 几何和位置信息
  • 变换计算:使用迭代最近点 (ICP) 算法计算预测点云与原始点云之间的刚体变换 (R, t),应用于机器人末端执行器位置
Card 05 数据集与资源

数据集与资源

  • 训练数据:LIBERO 数据集中的 50 个抽屉关闭任务演示,在 Robosuite 环境中使用 Franka Panda 机械臂
  • 模型基础:ShapeLLM-Omni (3D 多模态大语言模型),基于 Qwen-VL 和 3D VQVAE 嵌入
  • 训练设备:单张 NVIDIA A6000 GPU (48GB 内存)
  • 微调方法:Low-Rank Adaptation (LoRA),rank 值 r ∈ {4, 8, 16, 32, 64},dropout p=0.05
Card 06 评估与结果

评估与结果

  • 评估环境:LIBERO 数据集的两个场景 (Scene 5 和 Scene 10),每个场景进行 20 次 rollout
  • 主要指标:任务成功率 (Mean success rate)
  • 关键结果

- Scene 5: 0.90 ± 0.07

- Scene 10: 0.90 ± 0.07

- 显著优于对比方法:ResNet-RNN (0.05/0.45)、ResNet-T (0.80/0.45)、ViT-T (0.90/0.60)、Diffusion Policy (0.85/0.70)

  • 消融实验:位置量化技术显著提升了模型对物体位置的理解和抓取器对齐精度,增加了每场景生成的体素数量