返回列表 VLA / Vision-Language-Action 每日论文卡
ProGAL-VLA: Grounded Alignment through Prospective Reasoning in Vision-Language-Action Models
研究目标:解决视觉-语言-动作(VLA)模型中的语言忽视(language ignorance)和机器人不稳定性(robotic instab…

论文详情

ProGAL-VLA: Grounded Alignment through Prospective Reasoning in Vision-Language-Action Models

2026-04-10 · 原文 · 翻译 · 2604.09824

研究目标:解决视觉-语言-动作(VLA)模型中的语言忽视(language ignorance)和机器人不稳定性(robotic instability)问题 核心问题: 现有VLA模型依赖视觉捷径而非指令语义,导致语言不敏感 符号化目标与3D场景中可执行实体的对应关系缺乏验证机制 控制层操作未验证的表示,产生语义和物理失败 研究方法:提出ProGAL-VLA(前瞻性接地与对齐VLA),通过分层架构引入验证瓶颈,确…

6 分钟读完 6 张阅读卡 University of Illinois Chicago(伊利诺伊大学芝加哥分校),美国
一眼看懂 封面预览

研究目标:解决视觉-语言-动作(VLA)模型中的语言忽视(language ignorance)和机器人不稳定性(robotic instab…

  • 研究目标:解决视觉-语言-动作(VLA)模型中的语言忽视(language ignorance)和机器人不稳定性(robotic instab…
  • 核心问题:
  • 现有VLA模型依赖视觉捷径而非指令语义,导致语言不敏感
Card 01 研究单位

研究单位

  • University of Illinois Chicago(伊利诺伊大学芝加哥分校),美国
  • 主要作者:Nastaran Darabi、Amit Ranjan Trivedi
  • 联系方式:(ndarab2, amitrt)@uic.edu
  • 项目主页:https://nstrndrbi.github.io/ProGAL
Card 02 论文概述

论文概述

  • 研究目标:解决视觉-语言-动作(VLA)模型中的语言忽视(language ignorance)机器人不稳定性(robotic instability)问题
  • 核心问题

- 现有VLA模型依赖视觉捷径而非指令语义,导致语言不敏感

- 符号化目标与3D场景中可执行实体的对应关系缺乏验证机制

- 控制层操作未验证的表示,产生语义和物理失败

  • 研究方法:提出ProGAL-VLA(前瞻性接地与对齐VLA),通过分层架构引入验证瓶颈,确保语言意图在行动执行前已通过3D实体验证
Card 03 核心贡献

核心贡献

  • 前瞻性规划器(π_slow):使用Qwen-2.5-VL-Instruct-7B生成符号化子目标,将指令规范化以降低词汇熵
  • 接地状态模块(GSM):构建以3D实体为中心的图结构,将对象身份与姿态、外观解耦
  • 状态对齐交叉注意力(SACA):执行核心接地验证,将符号目标绑定到具体3D实体,生成验证后的目标嵌入g_t
  • 接地对齐对比(GAC)损失:强制符号子目标与3D实体的对齐,优化InfoNCE下界
  • 熵值歧义检测:SACA注意力熵提供内在歧义信号,支持选择性预测和校准的不确定性估计
Card 04 方法描述

方法描述

  • 分层架构:分离推理(π_slow)与控制(π_fast),通过验证瓶颈连接
  • 验证瓶颈机制:任何动作执行前,符号目标必须绑定到可物理到达的实体
  • GAC对比学习:将符号子目标 tokens 与3D实体嵌入对齐,解决绑定问题
  • 离线对齐对生成:通过教师VLM分割演示生成符号计划,构建3D跟踪器,时空匹配选择接地实体
  • 行动策略:仅依赖验证后的目标嵌入g_t和感知证据,不使用原始语言特征
Card 05 数据集与资源

数据集与资源

  • 评估基准

- LIBERO-Plus:VLA语言忽视现象的基准测试

- Custom Ambiguity Benchmark(CAB):自定义歧义检测基准,包含32/8/8个场景(训练/验证/测试),2400条指令(明确/模糊各1200条)

  • 模型规模

- π_fast:OpenVLA-7B(与基线相同)

- π_slow:Qwen-2.5-VL-Instruct-7B(每回合仅调用一次)

- 感知:YOLO-World(开集检测)

  • 推理延迟:总计96.4ms(检测器43.0ms + GSM 15.8ms + SACA 10.7ms + π_fast 26.9ms),吞吐量10.31 FPS
Card 06 评估与结果

评估与结果

  • LIBERO-Plus鲁棒性

- 总体得分:85.5%(vs 基线OpenVLA 17.3%)

- 机器人扰动:30.3% → 71.5%

- 布局变化:77.6% → 86.7%

- 语言扰动:85.8% → 93.6%

  • 语言忽视降低:简单/空间/关系指令从(0.36, 0.49, 0.57)降至(0.08, 0.14, 0.19),降低3-4倍
  • 实体检索:Recall@1从0.41 → 0.71(N=8),从0.15 → 0.41(N=32)
  • CAB歧义检测

- AUROC:0.52 → 0.81,AUPR:0.49 → 0.79

- 模糊输入澄清率:0.09 → 0.81

- 明确指令成功率:0.74 → 0.89

  • 消融实验:完整ProGAL-VLA在所有指标上优于各消融变体,验证了分层规划、GSM结构、GAC目标的各自贡献