一眼看懂
封面预览
本文是首个针对视觉-语言-动作(VLA)基础模型的置信度校准研究。
- 本文是首个针对视觉-语言-动作(VLA)基础模型的置信度校准研究。
- 研究目标是评估VLA模型的置信度校准情况,并引入轻量级技术来改进校准,以实现机器人行为的高性能和高可信度。
- 旨在解决VLA模型在真实世界物理交互中缺乏可靠不确定性量化机制的关键问题。
Card 01
研究单位
研究单位
- Columbia University
Card 02
论文概述
论文概述
- 本文是首个针对视觉-语言-动作(VLA)基础模型的置信度校准研究。
- 研究目标是评估VLA模型的置信度校准情况,并引入轻量级技术来改进校准,以实现机器人行为的高性能和高可信度。
- 旨在解决VLA模型在真实世界物理交互中缺乏可靠不确定性量化机制的关键问题。
Card 03
核心贡献
核心贡献
- 基准化任务成功与校准的关系:在多个基准和VLA变体上评估两者关系,发现模型架构和训练目标可能起重要作用。
- 提出提示集成(Prompt Ensembles)方法:通过对指令的多种语义等效重述进行置信度平均,显著降低预期校准误差(平均超过20%)。
- 分析任务时间上的校准变化:发现置信度在任务取得一定进展后最为可靠,指出了风险感知干预的自然时机。
- 提出动作维度缩放(Action-Wise Scaling)方法:针对不同动作维度存在系统性过/欠自信的问题,提出独立的每维度普拉特缩放以产生更可靠的置信度估计。
Card 04
方法描述
方法描述
- 基线置信度估计:对于基于令牌的VLA(如OpenVLA, RT-2),使用每个动作维度上预测令牌概率的均值作为置信度估计。
- 提示集成(创新点):使用GPT-4o-mini生成指令的多种语义等效重述,对每种重述得到的置信度进行平均,以降低语言通道的方差噪声。
- 动作维度普拉特缩放(创新点):为每个动作维度独立学习一个仿射变换(普拉特缩放),以校正不同维度的系统性校准偏差,然后平均得到最终校准后的置信度。
- 评估指标:使用预期校准误差(ECE1, ECE2)、Brier分数和负对数似然(NLL) 来全面衡量校准。
Card 05
数据集与资源
数据集与资源
- 数据集:使用LIBERO基准中的四个任务套件(Spatial, Object, Goal, 10),每个套件包含10个不同的机器人操作任务。
- 模型:评估了四个VLA变体:OpenVLA、MolmoAct、UniVLA 和 NORA,以及OpenVLA的8位和4位量化版本,共22个模型/任务组合。
- 训练资源:文中未明确指定训练VLA模型的具体硬件资源。实验评估在仿真环境中进行,使用了大量测试样本(每个任务套件500个试验)。
Card 06
评估与结果
评估与结果
- 评估环境与基准:在LIBERO仿真环境上进行评估,重点关注任务执行前(第一步)的置信度。
- 主要评估指标:预期校准误差(ECE)、Brier分数、负对数似然(NLL) 和任务成功率。
- 关键实验结果:
- 提示集成有效:在所有模型和任务套件上,提示集成方法一致降低了ECE1、ECE2和NLL,且从不使结果变差,平均降低ECE约20%。
- 任务中期校准最佳:校准误差(ECE, Brier)在任务完成约50%时最低,置信度在成功与失败试验间的区分度也最大。
- 动作维度校准不均:不同动作维度的ECE差异可达两倍,证明了动作维度间存在异质性。
- 动作维度缩放更优:与全局普拉特缩放相比,动作维度普拉特缩放能更有效地降低校准误差(在某些情况下超过20%)。