StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出 StereoVLA，首个系统性地将立体视觉（stereo vision）引入视觉-语言-动作（VLA）模型的机器人学习框架

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

提出 Geometric-Semantic Feature Extraction（几何-语义特征提取）模块，从 FoundationStereo 提取密集几何特征，从 SigLIP 和 DINOv2 提取语义特征，实现几何精度与语义丰富性的统一
设计 Interaction-Region Depth Estimation（交互区域深度估计） 辅助任务，聚焦夹爪-目标物体区域的关键空间细节，加速模型收敛
在多样化真实世界操作任务中，相比基线方法成功率提升 33%，在精细操作场景（如抓取小物体）上实现从 0% 到 30% 的突破
系统比较多种相机配置，证明立体视觉在性能、鲁棒性和部署简洁性上的最佳平衡

Card 04 方法描述

视觉编码：立体图像对输入 FoundationStereo，绕过视差预测组件，提取过滤后的代价体 V_c' 作为几何特征；左视图经 SigLIP 和 DINOv2 提取语义特征
特征融合：空间对齐后通道维度拼接（避免序列拼接带来的计算开销），经 MLP 投影器生成混合视觉 token
动作生成：基于 InternLM-1.8B 大语言模型，300M 参数动作专家采用 flow-matching 预测 delta 末端执行器位姿
多任务训练：联合优化动作预测、交互区域深度估计、边界框预测和关键帧位姿预测，损失权重 5:2:2:1

Card 05 数据集与资源

合成数据：使用 MuJoCo 和 Isaac Sim 渲染 500 万条立体视觉抓取轨迹，图像分辨率 256×256，训练时 resize 至 224×224
辅助数据集：引入互联网规模定位数据集 GRIT 增强语义 grounding 能力
训练配置：32 张 NVIDIA H800 GPU，batch size 384，学习率 1.6e-4，训练 160k 步
模型规模：1.8B 参数语言主干 + 300M 参数动作专家

Card 06 评估与结果

- 条形物体 90° 定向抓取：100% 成功率，基线最高仅 60%

- 小物体（1-2cm）抓取：30% 成功率，基线全部失败（0%）

- 相机位姿大范围随机化：成功率 61.3%，显著优于 front+side 配置的 24.1% 和 front+wrist 配置的 51.6%