返回列表 VLA / Vision-Language-Action 每日论文卡
Infrastructure-Centric World Models: Bridging Temporal Depth and Spatial Breadth for Roadside Perception
论文提出了 Infrastructure-centric World Models (I-WM),旨在填补当前自动驾驶世界模型仅关注自车视角的…

论文详情

Infrastructure-Centric World Models: Bridging Temporal Depth and Spatial Breadth for Roadside Perception

2026-04-19 · 原文 · 翻译 · 2604.17651

论文提出了 Infrastructure-centric World Models (I-WM),旨在填补当前自动驾驶世界模型仅关注自车视角的空白。 论文的核心论点是路侧传感器与车载传感器存在根本性的 时空互补性:路侧系统擅长 时间深度(固定位置的长期行为分布),车载系统擅长 空间广度(大范围道路网络的场景多样性)。 研究目标是构建一个能够理解并预测交通生态系统演化的路侧世界模型,实现主动安全干预和 V2X 协作。

5 分钟读完 6 张阅读卡 University of Massachusetts Amherst(马萨诸塞大学阿默斯特分校)土木…
一眼看懂 封面预览

论文提出了 Infrastructure-centric World Models (I-WM),旨在填补当前自动驾驶世界模型仅关注自车视角的…

  • 论文提出了 Infrastructure-centric World Models (I-WM),旨在填补当前自动驾驶世界模型仅关注自车视角的…
  • 论文的核心论点是路侧传感器与车载传感器存在根本性的 时空互补性:路侧系统擅长 时间深度(固定位置的长期行为分布),车载系统擅长 空间广度(大范…
  • 研究目标是构建一个能够理解并预测交通生态系统演化的路侧世界模型,实现主动安全干预和 V2X 协作。
Card 01 研究单位

研究单位

  • University of Massachusetts Amherst(马萨诸塞大学阿默斯特分校)土木与环境工程系
Card 02 论文概述

论文概述

  • 论文提出了 Infrastructure-centric World Models (I-WM),旨在填补当前自动驾驶世界模型仅关注自车视角的空白。
  • 论文的核心论点是路侧传感器与车载传感器存在根本性的 时空互补性:路侧系统擅长 时间深度(固定位置的长期行为分布),车载系统擅长 空间广度(大范围道路网络的场景多样性)。
  • 研究目标是构建一个能够理解并预测交通生态系统演化的路侧世界模型,实现主动安全干预和 V2X 协作。
Card 03 核心贡献

核心贡献

  • 提出了 I-WM 概念,确立了路侧视角在自动驾驶世界模型中的独特地位。
  • 定义了路侧感知的 时空互补性 理论,阐述了路侧数据在捕捉稀有事件和行为分布上的独特优势。
  • 设计了 双层架构,将模块化、无标注的感知层作为数据引擎,驱动端到端的生成式世界模型层。
  • 提出了分三阶段的研究路线图:生成式场景理解、物理约束预测动力学、V2X 协作世界模型。
  • 创新性地提出了 Infrastructure VLA (I-VLA) 概念,统一了路侧感知、自然语言指令与交通控制动作。
Card 04 方法描述

方法描述

  • 采用 双层设计:感知层包含 FRGB3D(背景建模)、MulDet3D(检测)、MulTrack3D(跟踪),无需人工标注;世界模型层利用自监督生成架构(如扩散模型)学习场景演化。
  • 第一阶段 方法:基于 DynamicCity 的 HexPlane VAE 和 DiT 扩散框架进行路侧 4D 占用生成,并引入 质量感知 的不确定性传播通道。
  • 第二阶段 方法:在潜在空间学习物理约束下的动力学过程($z_{t+1}=\mathcal{T}(z_t, a_t)$),利用 ResWorld 的残差建模思想进行多智能体反事实推理。
  • 第三阶段 方法:通过潜在空间对齐损失($\mathcal{L}_{\text{align}}$)实现路侧与车载世界模型的协作与信息共享。
Card 05 数据集与资源

数据集与资源

  • 私有数据集:多激光雷达路侧同步点云数据,包含长期连续录制和高质量标注。
  • 公共数据集DAIR-V2XV2X-SeqV2X-RealV2XScenesTUMTraf-I
  • 仿真数据:基于 CARLA 模拟器生成的合成数据。
  • 传感器模态:核心模态为 Multi-LiDAR 和 RGB 相机;扩展模态包括 4D RadarSPaT(信号相位与时序数据);前瞻模态包括事件相机和环境传感器。
Card 06 评估与结果

评估与结果

  • 论文为愿景规划类文章,主要从技术定位和架构层面阐述方案,暂未展示具体实验数值结果。
  • 技术定位基于 Paradigm B(3D/4D 场景生成)范式,计划适配 DynamicCityOccWorldHERMES 等开源基础模型。
  • 评估计划涵盖与 Waymo World Model 的概念对比(视角、遮挡处理、反事实范围等维度)。
  • 预期评估基准包括 V2X 公共数据集上的占用预测、场景生成质量及下游规划任务的表现。