Stable Language Guidance for Vision-Language-Action Models - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文针对视觉-语言-动作（VLA）模型在语言扰动下的脆弱性问题，提出了一种名为残差语义引导（Residual Semantic Steerin…

Card 01 研究单位

研究单位

Card 02 论文概述

论文针对视觉-语言-动作（VLA）模型在语言扰动下的脆弱性问题，提出了一种名为残差语义引导（Residual Semantic Steering, RSS）的probabilistic框架
研究的核心问题是"模态崩溃"（modality collapse）现象：即VLA模型中强视觉先验压倒稀疏的语言信号，导致智能体过度依赖特定的指令措辞而忽略底层语义意图
研究目标是通过解耦物理 affordance 与语义执行，使模型在各种语言扰动下保持鲁棒性

Card 03 核心贡献

残差 Affordance 引导（Residual Affordance Steering, RAS）：作为"偏差抑制器"，通过从条件logits中减去基础affordance分布（视觉先验），隔离出纯净语义信号，有效恢复语言特征的排名
蒙特卡洛句法集成（Monte Carlo Syntactic Integration, MCSI）：利用Oracle Teacher（LLM）生成密集的语言邻域，通过优化期望语义损失（Expected Semantic Loss）近似真实语义后验，确保策略对表层句法变化不变
理论分析：证明了RSS能有效最大化动作与意图之间的互信息，同时抑制视觉干扰
State-of-the-art鲁棒性：在多种语言扰动下（包括破坏性指令覆盖、混淆指令重释、分布外语义迁移）取得显著性能提升

Card 04 方法描述

- Monte Carlo Syntactic Integration：使用Qwen2.5-VL作为Oracle Teacher，从原始指令l_orig生成密集邻域N(l_orig)={l₁,...,l_K}，优化期望语义损失

创新点：与标准Classifier-Free Guidance（CFG）不同，RSS作为"偏差抑制器"而非"质量提升器"，明确建模并惩罚仅由视觉本能驱动的动作

Card 05 数据集与资源

基准数据集：LIBERO benchmark（包括LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-10四个任务类别）
基线模型：π₀ 和 π₀.5（Vision-Language-Action Flow Model）
骨干网络：基于Gemma的预训练视觉语言模型
Oracle Teacher：Qwen2.5-VL用于训练时生成语言邻域；ChatGPT-5.2用于评估时重写指令
训练配置：30,000步，batch size 32，余弦学习率衰减（峰值5×10⁻⁵），10,000步warm-up，EMA decay 0.999
评估硬件：单张NVIDIA RTX 3090 GPU

Card 06 评估与结果

- 破坏性指令覆盖（Destructive Instruction Overwriting）：Blank、Simple、Multi、Rand、Mask等扰动

- 混淆指令重释（Obfuscated Instruction Reinterpretation）：R0-R4五种变体（Multiword Substitution、Distraction、Common Sense、Reasoning Chain、Confusion）

- 分布外语义迁移（Out-of-distribution Semantic Transfer）：10/100/1000-shot adaptation

- 在π₀上：RSS组合将平均成功率从52.37%提升至82.22%（+29.85%）

- 在π₀.5上：RSS组合将平均成功率从75.90%提升至86.98%（+11.08%）

- 在混淆指令重释任务中，RSS显著提升了模型对复杂语义变化的鲁棒性

- 消融实验表明适度 steering coefficient（γ>1）可提升鲁棒性，但过大则导致性能下降