论文提出了 INSIGHT 框架，首个用于视觉-语言-动作模型的内省机制，利用推理时的token级不确定性信号预测机器人何时应请求人类帮助

论文详情

INSIGHT: INference-time Sequence Introspection for Generating Help Triggers in Vision-Language-Action Models

2025-10-01 · 原文 · 翻译 · 2510.01389

论文提出了 INSIGHT 框架，首个用于视觉-语言-动作模型的内省机制，利用推理时的token级不确定性信号预测机器人何时应请求人类帮助研究目标是解决VLA模型缺乏内省能力的问题，使其能识别潜在失败并主动请求干预，实现人机闭环的终身学习核心问题：能否从token级概率分布提取的不确定性信号可靠预测VLA的求助时机，以及不同监督范式如何影响该能力

4 分钟读完 6 张阅读卡论文作者所属 Yale University 计算机科学系

一眼看懂封面预览

论文提出了 INSIGHT 框架，首个用于视觉-语言-动作模型的内省机制，利用推理时的token级不确定性信号预测机器人何时应请求人类帮助

论文提出了 INSIGHT 框架，首个用于视觉-语言-动作模型的内省机制，利用推理时的token级不确定性信号预测机器人何时应请求人类帮助
研究目标是解决VLA模型缺乏内省能力的问题，使其能识别潜在失败并主动请求干预，实现人机闭环的终身学习
核心问题：能否从token级概率分布提取的不确定性信号可靠预测VLA的求助时机，以及不同监督范式如何影响该能力

Card 01 研究单位

研究单位

论文作者所属 Yale University 计算机科学系

Card 02 论文概述

论文概述

论文提出了 INSIGHT 框架，首个用于视觉-语言-动作模型的内省机制，利用推理时的token级不确定性信号预测机器人何时应请求人类帮助
研究目标是解决VLA模型缺乏内省能力的问题，使其能识别潜在失败并主动请求干预，实现人机闭环的终身学习
核心问题：能否从token级概率分布提取的不确定性信号可靠预测VLA的求助时机，以及不同监督范式如何影响该能力

Card 03 核心贡献

核心贡献

首创基于序列不确定性建模的VLA内省方法，证明token级不确定性序列结构比静态阈值（如保形预测）更有效
提出并对比了两种监督范式：强监督（步级精细标注）与 弱监督（基于回合结果的多实例学习）
设计轻量级Transformer架构（约30万-50万参数）处理时序不确定性信号，生成实时帮助触发决策
进行了全面的跨分布评估，量化标注成本、预测精度与泛化能力的权衡，建立了首个系统性评估基准

Card 04 方法描述

方法描述

基于 π0-FAST 模型，提取每个生成token的四种不确定性特征：熵、负对数概率、随机性不确定性（AU）、认知不确定性（EU）
将单步特征序列输入紧凑Transformer编码器，通过自注意力捕捉不确定性信号的时序演变模式
强监督范式下直接训练步级二元分类器；弱监督范式下采用Log-Sum-Exp池化聚合回合信号，实现多实例学习
关键创新：建模不确定性指标的时序动态而非静态聚合值，并适配VLA变长token序列与连续动作控制的特性

Card 05 数据集与资源

数据集与资源

使用 自定义数据集（80,419步，5类任务）在真实厨房环境用xArm7机器人通过GELLO遥操作采集
用于模拟OOD测试的 LIBERO数据集，包含截然不同的任务家族
基础模型 π0-FAST（参数量未明确说明）经全参数微调适配目标环境
分类器模型规模：强监督版本约 30万参数，弱监督版本约 50万参数
未明确列出GPU/TPU等训练计算资源

Card 06 评估与结果

评估与结果

评估环境：分布内测试、分布偏移测试、大规模分布内测试、模拟OOD测试、实时测试
基准方法：基于熵和困惑度的 保形预测（CP）
评估指标：分类准确率、F1分数，以及时序分析指标（首次求助时间(TTFH)、触发计数、触发率）
关键结果：强监督Transformer在几乎所有条件下达到最高F1分数；弱监督虽精度较低但更具实用性；基于序列的INSIGHT方法显著优于基于静态阈值的CP方法，证明了时序建模的重要性；在模拟OOD测试中，真实世界训练的强监督模型能有效迁移至仿真环境