一眼看懂
封面预览
提出 OmniVLA,首个多模态视觉-语言-动作(VLA)模型,整合红外、毫米波雷达和麦克风阵列等多种传感模态,实现超越RGB的机器人感知与操作
- 提出 OmniVLA,首个多模态视觉-语言-动作(VLA)模型,整合红外、毫米波雷达和麦克风阵列等多种传感模态,实现超越RGB的机器人感知与操作
- 核心创新是 sensor-masked images(传感器掩码图像),一种将物理意义的掩码叠加到RGB图像上的统一表示方法,实现传感信息的空…
- 解决了将异构传感器与VLA模型集成时的挑战:有效解释异构传感器信息、提供可扩展的统一表示、解决传感器数据稀缺问题
Card 01
研究单位
研究单位
- 普林斯顿大学 (Princeton University)
- 加州大学洛杉矶分校 (UCLA)
- 微软亚洲研究院 (Microsoft Research Asia)
Card 02
论文概述
论文概述
- 提出 OmniVLA,首个多模态视觉-语言-动作(VLA)模型,整合红外、毫米波雷达和麦克风阵列等多种传感模态,实现超越RGB的机器人感知与操作
- 核心创新是 sensor-masked images(传感器掩码图像),一种将物理意义的掩码叠加到RGB图像上的统一表示方法,实现传感信息的空间锚定和语义对齐
- 解决了将异构传感器与VLA模型集成时的挑战:有效解释异构传感器信息、提供可扩展的统一表示、解决传感器数据稀缺问题
Card 03
核心贡献
核心贡献
- 首个统一多传感模态(红外、毫米波、声学)的VLA模型,实现超越RGB感知能力的机器人操作任务
- 引入 sensor-masked images 表示方法,允许复用预训练视觉编码器、提供跨传感器的统一表示、提高学习效率
- 提出轻量级 OmniVLA 模型架构,基于预训练 RGB VLA backbone 进行扩展训练
- 在真实机器人平台上进行广泛评估,平均任务成功率达 84%,显著优于 RGB-only(25%)和 raw-sensor-input(56%)基线
Card 04
方法描述
方法描述
- 传感器数据预处理:使用波束形成(beamforming)将毫米波雷达和麦克风阵列数据转换为方位角-仰角热图
- 分割与叠加:使用 VLM (GPT-4o) 生成分割提示词,结合 Grounded SAM 2 进行语义分割,将传感器信息叠加到 RGB 图像的掩码区域
- 模型架构:复用冻结的视觉编码器,每种传感器模态使用独立的 MLP 投影层与语言 token 对齐,LLM backbone 处理级联 token,结合 diffusion-based Action Expert 生成机器人动作
- 训练策略:从预训练 VLA 模型权重初始化,冻结视觉编码器,使用预训练的 RGB 投影层权重初始化传感器 MLP
Card 05
数据集与资源
数据集与资源
- 数据集:收集了多传感器机器人臂原型数据,针对三种任务类型:热学(冷饮分拣)、毫米波(透视盒子找物体)、声学(听音定位手机)
- 硬件平台:SO101 机械臂 + RGB相机 + 深度相机 + 红外热像仪 + 毫米波雷达 + 6麦克风圆形阵列
- 基础模型:SmolVLA(默认),也测试了 π0
- 训练资源:8 张 NVIDIA A100 GPU,约 14 小时训练 50K 优化步
- 推理速度:RTX 4090 上可达 15 次/秒
Card 06
评估与结果
评估与结果
- 主要基准:VLA-RGB(仅RGB输入)、VLA-RAW(未处理的原始传感器数据)
- 评估指标:任务成功率(25次独立试验)、任务得分(选择正确物品0.5分 + 正确操作0.5分)
- 关键结果:
- OmniVLA 平均成功率 84%,领先 VLA-RGB(25%)59%,领先 VLA-RAW(56%)28%
- 数据效率:仅需约 50% 的训练数据即可达到与 VLA-RAW 相似的成功率
- 泛化能力:在 25-shot few-shot 设置下,OmniVLA 在未见任务上比基线平均提升 59%(vs OmniVLA-Base)和 28%(vs Pretrained VLA-RAW)