返回列表 VLA / Vision-Language-Action 每日论文卡
Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models
论文针对视觉-语言-动作模型在序列任务中的不确定性量化问题,提出了序列校准的概念。

论文详情

Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models

2026-04-22 · 原文 · 翻译 · 2604.20472

论文针对视觉-语言-动作模型在序列任务中的不确定性量化问题,提出了序列校准的概念。 核心目标是在只能观测到部分轨迹且最终结果延迟的情况下,评估并提升模型对任务成功概率预测的准确性。 论文通过建立序列 Brier 分数与强化学习中价值函数的联系,提出了基于时序差分的校准方法。

4 分钟读完 6 张阅读卡 Technion - Israel Institute of Technology(根据项目主页 UR…
一眼看懂 封面预览

论文针对视觉-语言-动作模型在序列任务中的不确定性量化问题,提出了序列校准的概念。

  • 论文针对视觉-语言-动作模型在序列任务中的不确定性量化问题,提出了序列校准的概念。
  • 核心目标是在只能观测到部分轨迹且最终结果延迟的情况下,评估并提升模型对任务成功概率预测的准确性。
  • 论文通过建立序列 Brier 分数与强化学习中价值函数的联系,提出了基于时序差分的校准方法。
Card 01 研究单位

研究单位

  • Technion - Israel Institute of Technology(根据项目主页 URL 及作者背景推断)
Card 02 论文概述

论文概述

  • 论文针对视觉-语言-动作模型在序列任务中的不确定性量化问题,提出了序列校准的概念。
  • 核心目标是在只能观测到部分轨迹且最终结果延迟的情况下,评估并提升模型对任务成功概率预测的准确性。
  • 论文通过建立序列 Brier 分数与强化学习中价值函数的联系,提出了基于时序差分的校准方法。
Card 03 核心贡献

核心贡献

  • 首次为序列决策任务建立了形式化的校准框架,定义了序列 Brier 分数,揭示了其最小化目标与策略价值函数的一致性。
  • 提出了TDQC(Temporal-Difference Q-based Calibration)方法,利用强化学习中的 TD 损失来训练校准器,解决了传统 Monte Carlo 方法在长序列中的偏差问题。
  • 实验证明,仅利用黑盒动作概率的 TDQC 方法在性能上可以匹敌甚至超越需要访问模型内部特征的 SOTA 方法 SAFE
  • 展示了校准后的价值预测器在LIBERO基准测试中能有效指导测试时的动作搜索,将 OpenVLA 模型的成功率提升了 15%。
Card 04 方法描述

方法描述

  • 将序列校准问题建模为寻找一个预测函数 $f$,使其能根据历史轨迹 $h_t$ 预测最终成功概率,并最小化序列 Brier 分数。
  • 关键技术是证明了最小化序列 Brier 分数等价于学习策略 $\pi$ 的动作价值函数 $Q^\pi$。
  • 使用时序差分损失训练一个神经网络预测器 $f_\theta$,通过自举法利用未来时刻的预测值来更新当前预测,结合目标网络以保证训练稳定性。
  • 利用保形预测根据校准分数设定动态阈值,实现任务执行过程中的早期故障检测与停止。
Card 05 数据集与资源

数据集与资源

  • 使用了LIBERO基准测试(模拟环境)以及真实的 Franka 机器人数据集。
  • 涉及的 VLA 模型包括 OpenVLA$\pi_0$$\pi_0$-FASTUniVLA
  • 训练数据由策略生成的轨迹及其对应的稀疏二值成功标签组成。
Card 06 评估与结果

评估与结果

  • 评估指标包括序列 Brier 分数(越低越好)、ROC-AUC 和故障检测的早期识别能力。
  • LIBEROFranka 数据集上的实验结果显示,TDQC 在序列 Brier 分数上显著优于基于二元交叉熵(BCE)训练的方法和 SAFE 方法。
  • 结果表明,即使不使用模型内部特征,经过 TD 校准的动作概率也能提供有效的任务成功预测,打破了此前认为动作概率不可用的认知。
  • 在引导动作搜索应用中,利用 TDQC 预测器选择动作,使 OpenVLA 在未见任务上的成功率显著提高。