一眼看懂
封面预览
论文提出了SG-VLA框架,旨在通过辅助任务协同训练和多模态输入增强,强化视觉-语言-动作模型的感知与表征学习能力,以解决移动操作任务中的挑战。
- 论文提出了SG-VLA框架,旨在通过辅助任务协同训练和多模态输入增强,强化视觉-语言-动作模型的感知与表征学习能力,以解决移动操作任务中的挑战。
- 研究核心问题是现有的VLA模型在复杂家庭环境中的移动操作任务上性能不佳,难以有效处理13维的协调动作空间(底座运动、机械臂关节和夹爪操作)。
- 论文通过引入多视角RGB观测、深度信息和时间历史来丰富空间理解,并通过协同训练一系列辅助解码器来提供密集监督,从而学习空间落地、面向操作的潜在…
Card 01
研究单位
研究单位
- UC San Diego
- Lambda, Inc
Card 02
论文概述
论文概述
- 论文提出了SG-VLA框架,旨在通过辅助任务协同训练和多模态输入增强,强化视觉-语言-动作模型的感知与表征学习能力,以解决移动操作任务中的挑战。
- 研究核心问题是现有的VLA模型在复杂家庭环境中的移动操作任务上性能不佳,难以有效处理13维的协调动作空间(底座运动、机械臂关节和夹爪操作)。
- 论文通过引入多视角RGB观测、深度信息和时间历史来丰富空间理解,并通过协同训练一系列辅助解码器来提供密集监督,从而学习空间落地、面向操作的潜在表征。
Card 03
核心贡献
核心贡献
- 提出了一种高效的协同训练策略,利用共享的视觉-语言骨干网络同时预测动作和一系列辅助任务,作为显式监督,强制模型学习更具可解释性和空间感知能力的表征。
- 系统性地探索了不同输入模态(多视角图像、深度信息)对提升移动操作VLA性能的影响,发现多视角RGB结合深度信息效果最佳。
- 在ManiSkill-HAB基准上验证了方法有效性,SG-VLA在家庭重排任务上的平均成功率达到73%,显著优于直接模仿学习的60%。
Card 04
方法描述
方法描述
- 模型基于Prismatic VLM(1.3B参数),视觉编码器融合DINOv2和SigLIP特征,语言模型骨干为Qwen2.5-0.5B。
- 创新性地设计了多种辅助解码器(MLP、Transformer、CNN),用于重建全局机器人位置、抓取状态、关节配置、目标物体相对姿态和分割掩码。
- 提出了三阶段渐进式训练方案:1) 解码器适应(冻结VLM),2) 联合精调,3) 隔离训练可选的Flow Matching动作专家(100M参数)。
Card 05
数据集与资源
数据集与资源
- 使用ManiSkill-HAB基准生成的仿真演示数据,包含44K回合和1.4M转换。
- 涵盖三种长期任务:TidyHouse、PrepareGroceries和SetTable,分解为Pick、Place、Open、Close四种基本子任务。
- 模型总参数量为1.3B(可选100M参数的动作头),在8个NVIDIA A100 GPU上进行训练。
Card 06
评估与结果
评估与结果
- 评估基于ManiSkill-HAB基准,针对Pick、Place、Open、Close四种操作任务。
- 主要评估指标为任务成功率。
- 关键结果:最佳模型(多视角RGB+深度+所有辅助任务)平均成功率达73%;多视角输入相比单视角基线有巨大提升;辅助任务通过渐进式训练带来22%的相对性能提升;Flow Matching动作头在精细操作任务上表现更好,但在移动主导任务中表现下降。