返回列表 VLA / Vision-Language-Action 每日论文卡
Stable Language Guidance for Vision-Language-Action Models
论文针对视觉-语言-动作(VLA)模型在语言扰动下的脆弱性问题,提出了一种名为残差语义引导(Residual Semantic Steerin…

论文详情

Stable Language Guidance for Vision-Language-Action Models

2026-01-07 · 原文 · 翻译 · 2601.04052

论文针对视觉-语言-动作(VLA)模型在语言扰动下的脆弱性问题,提出了一种名为残差语义引导(Residual Semantic Steering, RSS)的probabilistic框架 研究的核心问题是"模态崩溃"(modality collapse)现象:即VLA模型中强视觉先验压倒稀疏的语言信号,导致智能体过度依赖特定的指令措辞而忽略底层语义意图 研究目标是通过解耦物理 affordance 与语义执行,使…

7 分钟读完 6 张阅读卡 中山大学(Sun Yat-sen University)
一眼看懂 封面预览

论文针对视觉-语言-动作(VLA)模型在语言扰动下的脆弱性问题,提出了一种名为残差语义引导(Residual Semantic Steerin…

  • 论文针对视觉-语言-动作(VLA)模型在语言扰动下的脆弱性问题,提出了一种名为残差语义引导(Residual Semantic Steerin…
  • 研究的核心问题是"模态崩溃"(modality collapse)现象:即VLA模型中强视觉先验压倒稀疏的语言信号,导致智能体过度依赖特定的指…
  • 研究目标是通过解耦物理 affordance 与语义执行,使模型在各种语言扰动下保持鲁棒性
Card 01 研究单位

研究单位

  • 中山大学(Sun Yat-sen University)
  • 广东省大数据分析与处理重点实验室(Guangdong Key Lab of Big Data Analysis & Processing)
  • X-Era AI Lab
Card 02 论文概述

论文概述

  • 论文针对视觉-语言-动作(VLA)模型在语言扰动下的脆弱性问题,提出了一种名为残差语义引导(Residual Semantic Steering, RSS)的probabilistic框架
  • 研究的核心问题是"模态崩溃"(modality collapse)现象:即VLA模型中强视觉先验压倒稀疏的语言信号,导致智能体过度依赖特定的指令措辞而忽略底层语义意图
  • 研究目标是通过解耦物理 affordance 与语义执行,使模型在各种语言扰动下保持鲁棒性
Card 03 核心贡献

核心贡献

  • 残差 Affordance 引导(Residual Affordance Steering, RAS):作为"偏差抑制器",通过从条件logits中减去基础affordance分布(视觉先验),隔离出纯净语义信号,有效恢复语言特征的排名
  • 蒙特卡洛句法集成(Monte Carlo Syntactic Integration, MCSI):利用Oracle Teacher(LLM)生成密集的语言邻域,通过优化期望语义损失(Expected Semantic Loss)近似真实语义后验,确保策略对表层句法变化不变
  • 理论分析:证明了RSS能有效最大化动作与意图之间的互信息,同时抑制视觉干扰
  • State-of-the-art鲁棒性:在多种语言扰动下(包括破坏性指令覆盖、混淆指令重释、分布外语义迁移)取得显著性能提升
Card 04 方法描述

方法描述

  • RSS框架:包含两个阶段的dual-stage机制

- Monte Carlo Syntactic Integration:使用Qwen2.5-VL作为Oracle Teacher,从原始指令l_orig生成密集邻域N(l_orig)={l₁,...,l_K},优化期望语义损失

- Residual Affordance Steering:计算残差向量Δ_sem = s(a\|o,l) - s(a\|o,∅),其中s(a\|o,∅)是"基础affordance分布",代表仅基于视觉几何的动作概率,最终 steered policy 为:π̃(a\|o,l) ∝ exp(s(a\|o,∅) + γ·Δ_sem)

  • 创新点:与标准Classifier-Free Guidance(CFG)不同,RSS作为"偏差抑制器"而非"质量提升器",明确建模并惩罚仅由视觉本能驱动的动作
Card 05 数据集与资源

数据集与资源

  • 基准数据集:LIBERO benchmark(包括LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-10四个任务类别)
  • 基线模型:π₀ 和 π₀.5(Vision-Language-Action Flow Model)
  • 骨干网络:基于Gemma的预训练视觉语言模型
  • Oracle Teacher:Qwen2.5-VL用于训练时生成语言邻域;ChatGPT-5.2用于评估时重写指令
  • 训练配置:30,000步,batch size 32,余弦学习率衰减(峰值5×10⁻⁵),10,000步warm-up,EMA decay 0.999
  • 评估硬件:单张NVIDIA RTX 3090 GPU
Card 06 评估与结果

评估与结果

  • 评估场景

- 破坏性指令覆盖(Destructive Instruction Overwriting):Blank、Simple、Multi、Rand、Mask等扰动

- 混淆指令重释(Obfuscated Instruction Reinterpretation):R0-R4五种变体(Multiword Substitution、Distraction、Common Sense、Reasoning Chain、Confusion)

- 分布外语义迁移(Out-of-distribution Semantic Transfer):10/100/1000-shot adaptation

  • 主要结果

- 在π₀上:RSS组合将平均成功率从52.37%提升至82.22%(+29.85%)

- 在π₀.5上:RSS组合将平均成功率从75.90%提升至86.98%(+11.08%)

- 在混淆指令重释任务中,RSS显著提升了模型对复杂语义变化的鲁棒性

- 消融实验表明适度 steering coefficient(γ>1)可提升鲁棒性,但过大则导致性能下降