返回列表 VLA / Vision-Language-Action 每日论文卡
SG-VLA: Learning Spatially-Grounded Vision-Language-Action Models for Mobile Manipulation
论文提出了SG-VLA框架,旨在通过辅助任务协同训练和多模态输入增强,强化视觉-语言-动作模型的感知与表征学习能力,以解决移动操作任务中的挑战。

论文详情

SG-VLA: Learning Spatially-Grounded Vision-Language-Action Models for Mobile Manipulation

2026-03-24 · 原文 · 翻译 · 2603.22760

论文提出了SG-VLA框架,旨在通过辅助任务协同训练和多模态输入增强,强化视觉-语言-动作模型的感知与表征学习能力,以解决移动操作任务中的挑战。 研究核心问题是现有的VLA模型在复杂家庭环境中的移动操作任务上性能不佳,难以有效处理13维的协调动作空间(底座运动、机械臂关节和夹爪操作)。 论文通过引入多视角RGB观测、深度信息和时间历史来丰富空间理解,并通过协同训练一系列辅助解码器来提供密集监督,从而学习空间落地、面…

4 分钟读完 6 张阅读卡 UC San Diego
一眼看懂 封面预览

论文提出了SG-VLA框架,旨在通过辅助任务协同训练和多模态输入增强,强化视觉-语言-动作模型的感知与表征学习能力,以解决移动操作任务中的挑战。

  • 论文提出了SG-VLA框架,旨在通过辅助任务协同训练和多模态输入增强,强化视觉-语言-动作模型的感知与表征学习能力,以解决移动操作任务中的挑战。
  • 研究核心问题是现有的VLA模型在复杂家庭环境中的移动操作任务上性能不佳,难以有效处理13维的协调动作空间(底座运动、机械臂关节和夹爪操作)。
  • 论文通过引入多视角RGB观测、深度信息和时间历史来丰富空间理解,并通过协同训练一系列辅助解码器来提供密集监督,从而学习空间落地、面向操作的潜在…
Card 01 研究单位

研究单位

  • UC San Diego
  • Lambda, Inc
Card 02 论文概述

论文概述

  • 论文提出了SG-VLA框架,旨在通过辅助任务协同训练和多模态输入增强,强化视觉-语言-动作模型的感知与表征学习能力,以解决移动操作任务中的挑战。
  • 研究核心问题是现有的VLA模型在复杂家庭环境中的移动操作任务上性能不佳,难以有效处理13维的协调动作空间(底座运动、机械臂关节和夹爪操作)。
  • 论文通过引入多视角RGB观测、深度信息和时间历史来丰富空间理解,并通过协同训练一系列辅助解码器来提供密集监督,从而学习空间落地、面向操作的潜在表征。
Card 03 核心贡献

核心贡献

  • 提出了一种高效的协同训练策略,利用共享的视觉-语言骨干网络同时预测动作和一系列辅助任务,作为显式监督,强制模型学习更具可解释性和空间感知能力的表征。
  • 系统性地探索了不同输入模态(多视角图像、深度信息)对提升移动操作VLA性能的影响,发现多视角RGB结合深度信息效果最佳。
  • ManiSkill-HAB基准上验证了方法有效性,SG-VLA在家庭重排任务上的平均成功率达到73%,显著优于直接模仿学习的60%
Card 04 方法描述

方法描述

  • 模型基于Prismatic VLM(1.3B参数),视觉编码器融合DINOv2SigLIP特征,语言模型骨干为Qwen2.5-0.5B
  • 创新性地设计了多种辅助解码器(MLP、Transformer、CNN),用于重建全局机器人位置、抓取状态、关节配置、目标物体相对姿态和分割掩码。
  • 提出了三阶段渐进式训练方案:1) 解码器适应(冻结VLM),2) 联合精调,3) 隔离训练可选的Flow Matching动作专家(100M参数)。
Card 05 数据集与资源

数据集与资源

  • 使用ManiSkill-HAB基准生成的仿真演示数据,包含44K回合1.4M转换
  • 涵盖三种长期任务:TidyHousePrepareGroceriesSetTable,分解为Pick、Place、Open、Close四种基本子任务。
  • 模型总参数量为1.3B(可选100M参数的动作头),在8个NVIDIA A100 GPU上进行训练。
Card 06 评估与结果

评估与结果

  • 评估基于ManiSkill-HAB基准,针对Pick、Place、Open、Close四种操作任务。
  • 主要评估指标为任务成功率
  • 关键结果:最佳模型(多视角RGB+深度+所有辅助任务)平均成功率达73%;多视角输入相比单视角基线有巨大提升;辅助任务通过渐进式训练带来22%的相对性能提升;Flow Matching动作头在精细操作任务上表现更好,但在移动主导任务中表现下降。