返回列表 VLA / Vision-Language-Action 每日论文卡

Confidence Calibration in Vision-Language-Action Models

论文详情

Confidence Calibration in Vision-Language-Action Models

2025-07-23 · 原文 · 翻译 · 2507.17383

本文是首个针对视觉-语言-动作(VLA)基础模型的置信度校准研究。 研究目标是评估VLA模型的置信度校准情况,并引入轻量级技术来改进校准,以实现机器人行为的高性能和高可信度。 旨在解决VLA模型在真实世界物理交互中缺乏可靠不确定性量化机制的关键问题。

5 分钟读完 6 张阅读卡 Columbia University
一眼看懂 封面预览

本文是首个针对视觉-语言-动作(VLA)基础模型的置信度校准研究。

  • 本文是首个针对视觉-语言-动作(VLA)基础模型的置信度校准研究。
  • 研究目标是评估VLA模型的置信度校准情况,并引入轻量级技术来改进校准,以实现机器人行为的高性能和高可信度。
  • 旨在解决VLA模型在真实世界物理交互中缺乏可靠不确定性量化机制的关键问题。
Card 01 研究单位

研究单位

  • Columbia University
Card 02 论文概述

论文概述

  • 本文是首个针对视觉-语言-动作(VLA)基础模型的置信度校准研究。
  • 研究目标是评估VLA模型的置信度校准情况,并引入轻量级技术来改进校准,以实现机器人行为的高性能和高可信度。
  • 旨在解决VLA模型在真实世界物理交互中缺乏可靠不确定性量化机制的关键问题。
Card 03 核心贡献

核心贡献

  • 基准化任务成功与校准的关系:在多个基准和VLA变体上评估两者关系,发现模型架构和训练目标可能起重要作用。
  • 提出提示集成(Prompt Ensembles)方法:通过对指令的多种语义等效重述进行置信度平均,显著降低预期校准误差(平均超过20%)。
  • 分析任务时间上的校准变化:发现置信度在任务取得一定进展后最为可靠,指出了风险感知干预的自然时机。
  • 提出动作维度缩放(Action-Wise Scaling)方法:针对不同动作维度存在系统性过/欠自信的问题,提出独立的每维度普拉特缩放以产生更可靠的置信度估计。
Card 04 方法描述

方法描述

  • 基线置信度估计:对于基于令牌的VLA(如OpenVLA, RT-2),使用每个动作维度上预测令牌概率的均值作为置信度估计。
  • 提示集成(创新点):使用GPT-4o-mini生成指令的多种语义等效重述,对每种重述得到的置信度进行平均,以降低语言通道的方差噪声。
  • 动作维度普拉特缩放(创新点):为每个动作维度独立学习一个仿射变换(普拉特缩放),以校正不同维度的系统性校准偏差,然后平均得到最终校准后的置信度。
  • 评估指标:使用预期校准误差(ECE1, ECE2)Brier分数负对数似然(NLL) 来全面衡量校准。
Card 05 数据集与资源

数据集与资源

  • 数据集:使用LIBERO基准中的四个任务套件(Spatial, Object, Goal, 10),每个套件包含10个不同的机器人操作任务。
  • 模型:评估了四个VLA变体:OpenVLAMolmoActUniVLANORA,以及OpenVLA的8位和4位量化版本,共22个模型/任务组合
  • 训练资源:文中未明确指定训练VLA模型的具体硬件资源。实验评估在仿真环境中进行,使用了大量测试样本(每个任务套件500个试验)。
Card 06 评估与结果

评估与结果

  • 评估环境与基准:在LIBERO仿真环境上进行评估,重点关注任务执行前(第一步)的置信度。
  • 主要评估指标预期校准误差(ECE)Brier分数负对数似然(NLL)任务成功率
  • 关键实验结果

- 提示集成有效:在所有模型和任务套件上,提示集成方法一致降低了ECE1、ECE2和NLL,且从不使结果变差,平均降低ECE约20%。

- 任务中期校准最佳:校准误差(ECE, Brier)在任务完成约50%时最低,置信度在成功与失败试验间的区分度也最大。

- 动作维度校准不均:不同动作维度的ECE差异可达两倍,证明了动作维度间存在异质性。

- 动作维度缩放更优:与全局普拉特缩放相比,动作维度普拉特缩放能更有效地降低校准误差(在某些情况下超过20%)。