论文提出了SG-VLA框架，旨在通过辅助任务协同训练和多模态输入增强，强化视觉-语言-动作模型的感知与表征学习能力，以解决移动操作任务中的挑战。

论文详情

SG-VLA: Learning Spatially-Grounded Vision-Language-Action Models for Mobile Manipulation

2026-03-24 · 原文 · 翻译 · 2603.22760

论文提出了SG-VLA框架，旨在通过辅助任务协同训练和多模态输入增强，强化视觉-语言-动作模型的感知与表征学习能力，以解决移动操作任务中的挑战。研究核心问题是现有的VLA模型在复杂家庭环境中的移动操作任务上性能不佳，难以有效处理13维的协调动作空间（底座运动、机械臂关节和夹爪操作）。论文通过引入多视角RGB观测、深度信息和时间历史来丰富空间理解，并通过协同训练一系列辅助解码器来提供密集监督，从而学习空间落地、面…

4 分钟读完 6 张阅读卡 UC San Diego

一眼看懂封面预览

论文提出了SG-VLA框架，旨在通过辅助任务协同训练和多模态输入增强，强化视觉-语言-动作模型的感知与表征学习能力，以解决移动操作任务中的挑战。

论文提出了SG-VLA框架，旨在通过辅助任务协同训练和多模态输入增强，强化视觉-语言-动作模型的感知与表征学习能力，以解决移动操作任务中的挑战。
研究核心问题是现有的VLA模型在复杂家庭环境中的移动操作任务上性能不佳，难以有效处理13维的协调动作空间（底座运动、机械臂关节和夹爪操作）。
论文通过引入多视角RGB观测、深度信息和时间历史来丰富空间理解，并通过协同训练一系列辅助解码器来提供密集监督，从而学习空间落地、面向操作的潜在…

Card 01 研究单位

研究单位

UC San Diego
Lambda, Inc

Card 02 论文概述

论文概述

论文提出了SG-VLA框架，旨在通过辅助任务协同训练和多模态输入增强，强化视觉-语言-动作模型的感知与表征学习能力，以解决移动操作任务中的挑战。
研究核心问题是现有的VLA模型在复杂家庭环境中的移动操作任务上性能不佳，难以有效处理13维的协调动作空间（底座运动、机械臂关节和夹爪操作）。
论文通过引入多视角RGB观测、深度信息和时间历史来丰富空间理解，并通过协同训练一系列辅助解码器来提供密集监督，从而学习空间落地、面向操作的潜在表征。

Card 03 核心贡献

核心贡献

提出了一种高效的协同训练策略，利用共享的视觉-语言骨干网络同时预测动作和一系列辅助任务，作为显式监督，强制模型学习更具可解释性和空间感知能力的表征。
系统性地探索了不同输入模态（多视角图像、深度信息）对提升移动操作VLA性能的影响，发现多视角RGB结合深度信息效果最佳。
在ManiSkill-HAB基准上验证了方法有效性，SG-VLA在家庭重排任务上的平均成功率达到73%，显著优于直接模仿学习的60%。

Card 04 方法描述

方法描述

模型基于Prismatic VLM（1.3B参数），视觉编码器融合DINOv2和SigLIP特征，语言模型骨干为Qwen2.5-0.5B。
创新性地设计了多种辅助解码器（MLP、Transformer、CNN），用于重建全局机器人位置、抓取状态、关节配置、目标物体相对姿态和分割掩码。
提出了三阶段渐进式训练方案：1) 解码器适应（冻结VLM），2) 联合精调，3) 隔离训练可选的Flow Matching动作专家（100M参数）。

Card 05 数据集与资源

数据集与资源

使用ManiSkill-HAB基准生成的仿真演示数据，包含44K回合和1.4M转换。
涵盖三种长期任务：TidyHouse、PrepareGroceries和SetTable，分解为Pick、Place、Open、Close四种基本子任务。
模型总参数量为1.3B（可选100M参数的动作头），在8个NVIDIA A100 GPU上进行训练。

Card 06 评估与结果

评估与结果

评估基于ManiSkill-HAB基准，针对Pick、Place、Open、Close四种操作任务。
主要评估指标为任务成功率。
关键结果：最佳模型（多视角RGB+深度+所有辅助任务）平均成功率达73%；多视角输入相比单视角基线有巨大提升；辅助任务通过渐进式训练带来22%的相对性能提升；Flow Matching动作头在精细操作任务上表现更好，但在移动主导任务中表现下降。