返回列表 VLA / Vision-Language-Action 每日论文卡
Causal Scene Narration with Runtime Safety Supervision for Vision-Language-Action Driving
论文提出 Causal Scene Narration (CSN) 框架,通过意图-约束对齐、定量物理锚定和结构化信息分离来重构视觉语言动作…

论文详情

Causal Scene Narration with Runtime Safety Supervision for Vision-Language-Action Driving

2026-04-02 · 原文 · 翻译 · 2604.01723

论文提出 Causal Scene Narration (CSN) 框架,通过意图-约束对齐、定量物理锚定和结构化信息分离来重构视觉语言动作 (VLA) 模型的文本输入,在推理时以零 GPU 成本运行 论文引入基于 Simplex 架构 的运行时安全监督机制,监控 VLA 输出并在检测到潜在不安全动作时进行干预,提供训练时对齐无法提供的安全保障 论文解决三个关键问题:现有 VLA 系统文本输入呈因果断裂碎片、缺乏运…

5 分钟读完 6 张阅读卡 东京大学 信息科学与技术研究生院
一眼看懂 封面预览

论文提出 Causal Scene Narration (CSN) 框架,通过意图-约束对齐、定量物理锚定和结构化信息分离来重构视觉语言动作…

  • 论文提出 Causal Scene Narration (CSN) 框架,通过意图-约束对齐、定量物理锚定和结构化信息分离来重构视觉语言动作…
  • 论文引入基于 Simplex 架构 的运行时安全监督机制,监控 VLA 输出并在检测到潜在不安全动作时进行干预,提供训练时对齐无法提供的安全保障
  • 论文解决三个关键问题:现有 VLA 系统文本输入呈因果断裂碎片、缺乏运行时安全保证、偏好对齐模型存在分布偏移
Card 01 研究单位

研究单位

  • 东京大学 信息科学与技术研究生院
  • TIER IV, Inc.
Card 02 论文概述

论文概述

  • 论文提出 Causal Scene Narration (CSN) 框架,通过意图-约束对齐、定量物理锚定和结构化信息分离来重构视觉语言动作 (VLA) 模型的文本输入,在推理时以零 GPU 成本运行
  • 论文引入基于 Simplex 架构 的运行时安全监督机制,监控 VLA 输出并在检测到潜在不安全动作时进行干预,提供训练时对齐无法提供的安全保障
  • 论文解决三个关键问题:现有 VLA 系统文本输入呈因果断裂碎片、缺乏运行时安全保证、偏好对齐模型存在分布偏移
Card 03 核心贡献

核心贡献

  • 提出 CSN 框架,将现有方法按因果结构级别 (L0-L3) 分类,构建零 VRAM 文本增强管道
  • 设计 运行时安全监督器,基于 Simplex 架构实现语义级安全包络监控和方向一致性检测
  • 开发 PL-DPO-NLL 训练时安全对齐方法,结合 Plackett-Luce 多偏好排序与 NLL 正则化
  • 进行十配置多城镇消融实验 (16 路线、8 城镇),证明 CSN 在不同权重配置下的鲁棒性
  • 通过经验分解证明因果结构贡献了 39.1% 的性能提升,而非仅信息量增加
Card 04 方法描述

方法描述

  • CSN 采用三原则:(1) 定量物理锚定 将模糊描述替换为精确度量值;(2) 结构化信息分离 按感知-预测-规划链组织;(3) 意图-约束因果对齐 使用显式因果连接词 (BUT, YIELD_BEFORE, BECAUSE) 链接意图与约束
  • 运行时安全监督采用 Simplex 架构:高级控制器 为 VLA 模型,基线控制器 为 CARLA Traffic Manager,决策模块 监控语义安全包络并在违规时切换控制权
  • 安全规范使用信号时序逻辑 (STL) 定义方向一致性 φ₁ 和停滞检测 φ₂,仅在不进入路口时评估方向一致性以避免误报
Card 05 数据集与资源

数据集与资源

  • CARLA 0.9.10 模拟器,16 条路线覆盖 8 个城镇,包含夜间、雨天、浓雾和晴天场景
  • Town01 用于收集偏好数据,共 51,124 个 Plackett-Luce 样本,涵盖转弯、正常驾驶、制动等场景
  • 模型骨干为 LLaMA-7B,视觉编码器为 ResNet-50
  • PL-DPO-NLL 训练使用 3× NVIDIA RTX 6000 Ada GPU,推理在 NVIDIA RTX 3090 Ti 上进行
  • LoRA 配置:秩 r=32,alpha=32,应用于所有注意力和 MLP 投影层
Card 06 评估与结果

评估与结果

  • 评估指标:Driving Score (DS) 为主要指标,Route Completion (RC) 和 Infraction Score (IS) 为辅助指标
  • CSN 在原始 LMDrive 上提升 DS +31.1%,在偏好对齐变体上提升 +24.5%
  • Flat Text (仅信息无因果结构) 提升 +18.9%,证明因果结构贡献 39.1% 的增益
  • 语义安全监督 改善 Infraction Score,而反应式 TTC 监控导致性能下降 -32.3%
  • PL-DPO-NLL 单独使用时因分布偏移未见改进,但与 CSN 结合后获得显著增益