Confidence Calibration in Vision-Language-Action Models - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

本文是首个针对视觉-语言-动作（VLA）基础模型的置信度校准研究。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

基准化任务成功与校准的关系：在多个基准和VLA变体上评估两者关系，发现模型架构和训练目标可能起重要作用。
提出提示集成（Prompt Ensembles）方法：通过对指令的多种语义等效重述进行置信度平均，显著降低预期校准误差（平均超过20%）。
分析任务时间上的校准变化：发现置信度在任务取得一定进展后最为可靠，指出了风险感知干预的自然时机。
提出动作维度缩放（Action-Wise Scaling）方法：针对不同动作维度存在系统性过/欠自信的问题，提出独立的每维度普拉特缩放以产生更可靠的置信度估计。

Card 04 方法描述

Card 05 数据集与资源

数据集：使用LIBERO基准中的四个任务套件（Spatial, Object, Goal, 10），每个套件包含10个不同的机器人操作任务。
模型：评估了四个VLA变体：OpenVLA、MolmoAct、UniVLA 和 NORA，以及OpenVLA的8位和4位量化版本，共22个模型/任务组合。
训练资源：文中未明确指定训练VLA模型的具体硬件资源。实验评估在仿真环境中进行，使用了大量测试样本（每个任务套件500个试验）。

Card 06 评估与结果

- 提示集成有效：在所有模型和任务套件上，提示集成方法一致降低了ECE1、ECE2和NLL，且从不使结果变差，平均降低ECE约20%。

- 任务中期校准最佳：校准误差（ECE， Brier）在任务完成约50%时最低，置信度在成功与失败试验间的区分度也最大。

- 动作维度校准不均：不同动作维度的ECE差异可达两倍，证明了动作维度间存在异质性。

- 动作维度缩放更优：与全局普拉特缩放相比，动作维度普拉特缩放能更有效地降低校准误差（在某些情况下超过20%）。