返回列表 VLA / Vision-Language-Action 每日论文卡
OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation
提出 OmniVLA,首个多模态视觉-语言-动作(VLA)模型,整合红外、毫米波雷达和麦克风阵列等多种传感模态,实现超越RGB的机器人感知与操作

论文详情

OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation

2025-11-03 · 原文 · 翻译 · 2511.01210

提出 OmniVLA,首个多模态视觉-语言-动作(VLA)模型,整合红外、毫米波雷达和麦克风阵列等多种传感模态,实现超越RGB的机器人感知与操作 核心创新是 sensor-masked images(传感器掩码图像),一种将物理意义的掩码叠加到RGB图像上的统一表示方法,实现传感信息的空间锚定和语义对齐 解决了将异构传感器与VLA模型集成时的挑战:有效解释异构传感器信息、提供可扩展的统一表示、解决传感器数据稀缺问题

5 分钟读完 6 张阅读卡 普林斯顿大学 (Princeton University)
一眼看懂 封面预览

提出 OmniVLA,首个多模态视觉-语言-动作(VLA)模型,整合红外、毫米波雷达和麦克风阵列等多种传感模态,实现超越RGB的机器人感知与操作

  • 提出 OmniVLA,首个多模态视觉-语言-动作(VLA)模型,整合红外、毫米波雷达和麦克风阵列等多种传感模态,实现超越RGB的机器人感知与操作
  • 核心创新是 sensor-masked images(传感器掩码图像),一种将物理意义的掩码叠加到RGB图像上的统一表示方法,实现传感信息的空…
  • 解决了将异构传感器与VLA模型集成时的挑战:有效解释异构传感器信息、提供可扩展的统一表示、解决传感器数据稀缺问题
Card 01 研究单位

研究单位

  • 普林斯顿大学 (Princeton University)
  • 加州大学洛杉矶分校 (UCLA)
  • 微软亚洲研究院 (Microsoft Research Asia)
Card 02 论文概述

论文概述

  • 提出 OmniVLA,首个多模态视觉-语言-动作(VLA)模型,整合红外、毫米波雷达和麦克风阵列等多种传感模态,实现超越RGB的机器人感知与操作
  • 核心创新是 sensor-masked images(传感器掩码图像),一种将物理意义的掩码叠加到RGB图像上的统一表示方法,实现传感信息的空间锚定和语义对齐
  • 解决了将异构传感器与VLA模型集成时的挑战:有效解释异构传感器信息、提供可扩展的统一表示、解决传感器数据稀缺问题
Card 03 核心贡献

核心贡献

  • 首个统一多传感模态(红外、毫米波、声学)的VLA模型,实现超越RGB感知能力的机器人操作任务
  • 引入 sensor-masked images 表示方法,允许复用预训练视觉编码器、提供跨传感器的统一表示、提高学习效率
  • 提出轻量级 OmniVLA 模型架构,基于预训练 RGB VLA backbone 进行扩展训练
  • 在真实机器人平台上进行广泛评估,平均任务成功率达 84%,显著优于 RGB-only(25%)和 raw-sensor-input(56%)基线
Card 04 方法描述

方法描述

  • 传感器数据预处理:使用波束形成(beamforming)将毫米波雷达和麦克风阵列数据转换为方位角-仰角热图
  • 分割与叠加:使用 VLM (GPT-4o) 生成分割提示词,结合 Grounded SAM 2 进行语义分割,将传感器信息叠加到 RGB 图像的掩码区域
  • 模型架构:复用冻结的视觉编码器,每种传感器模态使用独立的 MLP 投影层与语言 token 对齐,LLM backbone 处理级联 token,结合 diffusion-based Action Expert 生成机器人动作
  • 训练策略:从预训练 VLA 模型权重初始化,冻结视觉编码器,使用预训练的 RGB 投影层权重初始化传感器 MLP
Card 05 数据集与资源

数据集与资源

  • 数据集:收集了多传感器机器人臂原型数据,针对三种任务类型:热学(冷饮分拣)、毫米波(透视盒子找物体)、声学(听音定位手机)
  • 硬件平台:SO101 机械臂 + RGB相机 + 深度相机 + 红外热像仪 + 毫米波雷达 + 6麦克风圆形阵列
  • 基础模型:SmolVLA(默认),也测试了 π0
  • 训练资源:8 张 NVIDIA A100 GPU,约 14 小时训练 50K 优化步
  • 推理速度:RTX 4090 上可达 15 次/秒
Card 06 评估与结果

评估与结果

  • 主要基准:VLA-RGB(仅RGB输入)、VLA-RAW(未处理的原始传感器数据)
  • 评估指标:任务成功率(25次独立试验)、任务得分(选择正确物品0.5分 + 正确操作0.5分)
  • 关键结果

- OmniVLA 平均成功率 84%,领先 VLA-RGB(25%)59%,领先 VLA-RAW(56%)28%

- 数据效率:仅需约 50% 的训练数据即可达到与 VLA-RAW 相似的成功率

- 泛化能力:在 25-shot few-shot 设置下,OmniVLA 在未见任务上比基线平均提升 59%(vs OmniVLA-Base)和 28%(vs Pretrained VLA-RAW)