论文提出 Causal Scene Narration (CSN) 框架，通过意图-约束对齐、定量物理锚定和结构化信息分离来重构视觉语言动作…

论文详情

Causal Scene Narration with Runtime Safety Supervision for Vision-Language-Action Driving

2026-04-02 · 原文 · 翻译 · 2604.01723

论文提出 Causal Scene Narration (CSN) 框架，通过意图-约束对齐、定量物理锚定和结构化信息分离来重构视觉语言动作 (VLA) 模型的文本输入，在推理时以零 GPU 成本运行论文引入基于 Simplex 架构的运行时安全监督机制，监控 VLA 输出并在检测到潜在不安全动作时进行干预，提供训练时对齐无法提供的安全保障论文解决三个关键问题：现有 VLA 系统文本输入呈因果断裂碎片、缺乏运…

5 分钟读完 6 张阅读卡东京大学信息科学与技术研究生院

一眼看懂封面预览

论文提出 Causal Scene Narration (CSN) 框架，通过意图-约束对齐、定量物理锚定和结构化信息分离来重构视觉语言动作…

论文提出 Causal Scene Narration (CSN) 框架，通过意图-约束对齐、定量物理锚定和结构化信息分离来重构视觉语言动作…
论文引入基于 Simplex 架构的运行时安全监督机制，监控 VLA 输出并在检测到潜在不安全动作时进行干预，提供训练时对齐无法提供的安全保障
论文解决三个关键问题：现有 VLA 系统文本输入呈因果断裂碎片、缺乏运行时安全保证、偏好对齐模型存在分布偏移

Card 01 研究单位

研究单位

东京大学 信息科学与技术研究生院
TIER IV, Inc.

Card 02 论文概述

论文概述

论文提出 Causal Scene Narration (CSN) 框架，通过意图-约束对齐、定量物理锚定和结构化信息分离来重构视觉语言动作 (VLA) 模型的文本输入，在推理时以零 GPU 成本运行
论文引入基于 Simplex 架构 的运行时安全监督机制，监控 VLA 输出并在检测到潜在不安全动作时进行干预，提供训练时对齐无法提供的安全保障
论文解决三个关键问题：现有 VLA 系统文本输入呈因果断裂碎片、缺乏运行时安全保证、偏好对齐模型存在分布偏移

Card 03 核心贡献

核心贡献

提出 CSN 框架，将现有方法按因果结构级别 (L0-L3) 分类，构建零 VRAM 文本增强管道
设计 运行时安全监督器，基于 Simplex 架构实现语义级安全包络监控和方向一致性检测
开发 PL-DPO-NLL 训练时安全对齐方法，结合 Plackett-Luce 多偏好排序与 NLL 正则化
进行十配置多城镇消融实验 (16 路线、8 城镇)，证明 CSN 在不同权重配置下的鲁棒性
通过经验分解证明因果结构贡献了 39.1% 的性能提升，而非仅信息量增加

Card 04 方法描述

方法描述

CSN 采用三原则：(1) 定量物理锚定 将模糊描述替换为精确度量值；(2) 结构化信息分离 按感知-预测-规划链组织；(3) 意图-约束因果对齐 使用显式因果连接词 (BUT, YIELD_BEFORE, BECAUSE) 链接意图与约束
运行时安全监督采用 Simplex 架构：高级控制器 为 VLA 模型，基线控制器 为 CARLA Traffic Manager，决策模块 监控语义安全包络并在违规时切换控制权
安全规范使用信号时序逻辑 (STL) 定义方向一致性 φ₁ 和停滞检测 φ₂，仅在不进入路口时评估方向一致性以避免误报

Card 05 数据集与资源

数据集与资源

CARLA 0.9.10 模拟器，16 条路线覆盖 8 个城镇，包含夜间、雨天、浓雾和晴天场景
Town01 用于收集偏好数据，共 51,124 个 Plackett-Luce 样本，涵盖转弯、正常驾驶、制动等场景
模型骨干为 LLaMA-7B，视觉编码器为 ResNet-50
PL-DPO-NLL 训练使用 3× NVIDIA RTX 6000 Ada GPU，推理在 NVIDIA RTX 3090 Ti 上进行
LoRA 配置：秩 r=32，alpha=32，应用于所有注意力和 MLP 投影层

Card 06 评估与结果

评估与结果

评估指标：Driving Score (DS) 为主要指标，Route Completion (RC) 和 Infraction Score (IS) 为辅助指标
CSN 在原始 LMDrive 上提升 DS +31.1%，在偏好对齐变体上提升 +24.5%
Flat Text (仅信息无因果结构) 提升 +18.9%，证明因果结构贡献 39.1% 的增益
语义安全监督 改善 Infraction Score，而反应式 TTC 监控导致性能下降 -32.3%
PL-DPO-NLL 单独使用时因分布偏移未见改进，但与 CSN 结合后获得显著增益