OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation

一眼看懂封面预览

提出 OmniVLA，首个多模态视觉-语言-动作(VLA)模型，整合红外、毫米波雷达和麦克风阵列等多种传感模态，实现超越RGB的机器人感知与操作

Card 01 研究单位

研究单位

Card 02 论文概述

提出 OmniVLA，首个多模态视觉-语言-动作(VLA)模型，整合红外、毫米波雷达和麦克风阵列等多种传感模态，实现超越RGB的机器人感知与操作
核心创新是 sensor-masked images（传感器掩码图像），一种将物理意义的掩码叠加到RGB图像上的统一表示方法，实现传感信息的空间锚定和语义对齐
解决了将异构传感器与VLA模型集成时的挑战：有效解释异构传感器信息、提供可扩展的统一表示、解决传感器数据稀缺问题

Card 03 核心贡献

Card 04 方法描述

传感器数据预处理：使用波束形成(beamforming)将毫米波雷达和麦克风阵列数据转换为方位角-仰角热图
分割与叠加：使用 VLM (GPT-4o) 生成分割提示词，结合 Grounded SAM 2 进行语义分割，将传感器信息叠加到 RGB 图像的掩码区域
模型架构：复用冻结的视觉编码器，每种传感器模态使用独立的 MLP 投影层与语言 token 对齐，LLM backbone 处理级联 token，结合 diffusion-based Action Expert 生成机器人动作
训练策略：从预训练 VLA 模型权重初始化，冻结视觉编码器，使用预训练的 RGB 投影层权重初始化传感器 MLP

Card 05 数据集与资源

Card 06 评估与结果

- OmniVLA 平均成功率 84%，领先 VLA-RGB（25%）59%，领先 VLA-RAW（56%）28%

- 数据效率：仅需约 50% 的训练数据即可达到与 VLA-RAW 相似的成功率

- 泛化能力：在 25-shot few-shot 设置下，OmniVLA 在未见任务上比基线平均提升 59%（vs OmniVLA-Base）和 28%（vs Pretrained VLA-RAW）