Avi: Action from Volumetric Inference - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出 Avi，一种新型的 3D Vision-Language-Action (VLA) 架构，将机器人动作生成重新定义为3D 感知和空间推理…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 Avi，一种新型的 3D Vision-Language-Action (VLA) 架构，将机器人动作生成重新定义为3D 感知和空间推理问题，而非低层次策略学习
核心创新：模型不依赖于历史动作 tokens 进行训练，而是通过 3D 多模态大语言模型 (ShapeLLM-Omni) 预测下一帧点云，并利用经典几何变换计算动作
方法对遮挡、相机姿态变化和视角变化具有很强的鲁棒性，弥合了高层语言指令与低层执行之间的鸿沟

Card 03 核心贡献

AVI 架构：将 3D 多模态大语言模型与体素推理相结合，通过预测目标条件下的 3D 体积来表示环境状态，而非直接输出动作 tokens
位置量化技术 (Location Quantization)：提出一种将空间信息离散化的通用方法，使预训练的 3D MLLM 能够在物体级别而非场景级别进行泛化
语言到几何的范式转变：将传统的"语言到动作"转化为"语言到几何"，生成可解释的、与形态无关的行为
无需动作数据的训练：仅使用历史深度图进行训练，突破了现有 VLA 模型依赖动作数据的限制

Card 04 方法描述

物体分割：使用 Segment Anything Model (SAM) 将场景点云分割为多个独立的物体点云
位置量化：引入 768 个位置 tokens (X,Y,Z 各 256 个 bins) 和 128 个尺度 tokens，将物体位置和尺度编码为离散token
3D MLLM：基于 ShapeLLM-Omni 构建，使用 VQ-VAE 将体素网格编码为 8192 个离散 tokens，通过自回归变换器联合推理文本、3D 几何和位置信息
变换计算：使用迭代最近点 (ICP) 算法计算预测点云与原始点云之间的刚体变换 (R, t)，应用于机器人末端执行器位置

Card 05 数据集与资源

训练数据：LIBERO 数据集中的 50 个抽屉关闭任务演示，在 Robosuite 环境中使用 Franka Panda 机械臂
模型基础：ShapeLLM-Omni (3D 多模态大语言模型)，基于 Qwen-VL 和 3D VQVAE 嵌入
训练设备：单张 NVIDIA A6000 GPU (48GB 内存)
微调方法：Low-Rank Adaptation (LoRA)，rank 值 r ∈ {4, 8, 16, 32, 64}，dropout p=0.05

Card 06 评估与结果

- Scene 5: 0.90 ± 0.07

- Scene 10: 0.90 ± 0.07

- 显著优于对比方法：ResNet-RNN (0.05/0.45)、ResNet-T (0.80/0.45)、ViT-T (0.90/0.60)、Diffusion Policy (0.85/0.70)