论文针对视觉-语言-动作模型在序列任务中的不确定性量化问题，提出了序列校准的概念。

论文详情

Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models

2026-04-22 · 原文 · 翻译 · 2604.20472

论文针对视觉-语言-动作模型在序列任务中的不确定性量化问题，提出了序列校准的概念。核心目标是在只能观测到部分轨迹且最终结果延迟的情况下，评估并提升模型对任务成功概率预测的准确性。论文通过建立序列 Brier 分数与强化学习中价值函数的联系，提出了基于时序差分的校准方法。

4 分钟读完 6 张阅读卡 Technion - Israel Institute of Technology（根据项目主页 UR…

一眼看懂封面预览

论文针对视觉-语言-动作模型在序列任务中的不确定性量化问题，提出了序列校准的概念。

论文针对视觉-语言-动作模型在序列任务中的不确定性量化问题，提出了序列校准的概念。
核心目标是在只能观测到部分轨迹且最终结果延迟的情况下，评估并提升模型对任务成功概率预测的准确性。
论文通过建立序列 Brier 分数与强化学习中价值函数的联系，提出了基于时序差分的校准方法。

Card 01 研究单位

研究单位

Technion - Israel Institute of Technology（根据项目主页 URL 及作者背景推断）

Card 02 论文概述

论文概述

论文针对视觉-语言-动作模型在序列任务中的不确定性量化问题，提出了序列校准的概念。
核心目标是在只能观测到部分轨迹且最终结果延迟的情况下，评估并提升模型对任务成功概率预测的准确性。
论文通过建立序列 Brier 分数与强化学习中价值函数的联系，提出了基于时序差分的校准方法。

Card 03 核心贡献

核心贡献

首次为序列决策任务建立了形式化的校准框架，定义了序列 Brier 分数，揭示了其最小化目标与策略价值函数的一致性。
提出了TDQC（Temporal-Difference Q-based Calibration）方法，利用强化学习中的 TD 损失来训练校准器，解决了传统 Monte Carlo 方法在长序列中的偏差问题。
实验证明，仅利用黑盒动作概率的 TDQC 方法在性能上可以匹敌甚至超越需要访问模型内部特征的 SOTA 方法 SAFE。
展示了校准后的价值预测器在LIBERO基准测试中能有效指导测试时的动作搜索，将 OpenVLA 模型的成功率提升了 15%。

Card 04 方法描述

方法描述

将序列校准问题建模为寻找一个预测函数 $f$，使其能根据历史轨迹 $h_t$ 预测最终成功概率，并最小化序列 Brier 分数。
关键技术是证明了最小化序列 Brier 分数等价于学习策略 $\pi$ 的动作价值函数 $Q^\pi$。
使用时序差分损失训练一个神经网络预测器 $f_\theta$，通过自举法利用未来时刻的预测值来更新当前预测，结合目标网络以保证训练稳定性。
利用保形预测根据校准分数设定动态阈值，实现任务执行过程中的早期故障检测与停止。

Card 05 数据集与资源

数据集与资源

使用了LIBERO基准测试（模拟环境）以及真实的 Franka 机器人数据集。
涉及的 VLA 模型包括 OpenVLA、$\pi_0$、$\pi_0$-FAST 和 UniVLA。
训练数据由策略生成的轨迹及其对应的稀疏二值成功标签组成。

Card 06 评估与结果

评估与结果

评估指标包括序列 Brier 分数（越低越好）、ROC-AUC 和故障检测的早期识别能力。
在 LIBERO 和 Franka 数据集上的实验结果显示，TDQC 在序列 Brier 分数上显著优于基于二元交叉熵（BCE）训练的方法和 SAFE 方法。
结果表明，即使不使用模型内部特征，经过 TD 校准的动作概率也能提供有效的任务成功预测，打破了此前认为动作概率不可用的认知。
在引导动作搜索应用中，利用 TDQC 预测器选择动作，使 OpenVLA 在未见任务上的成功率显著提高。