返回列表 VLA / Vision-Language-Action 每日论文卡
INSIGHT: INference-time Sequence Introspection for Generating Help Triggers in Vision-Language-Action Models
论文提出了 INSIGHT 框架,首个用于视觉-语言-动作模型的内省机制,利用推理时的token级不确定性信号预测机器人何时应请求人类帮助

论文详情

INSIGHT: INference-time Sequence Introspection for Generating Help Triggers in Vision-Language-Action Models

2025-10-01 · 原文 · 翻译 · 2510.01389

论文提出了 INSIGHT 框架,首个用于视觉-语言-动作模型的内省机制,利用推理时的token级不确定性信号预测机器人何时应请求人类帮助 研究目标是解决VLA模型缺乏内省能力的问题,使其能识别潜在失败并主动请求干预,实现人机闭环的终身学习 核心问题:能否从token级概率分布提取的不确定性信号可靠预测VLA的求助时机,以及不同监督范式如何影响该能力

4 分钟读完 6 张阅读卡 论文作者所属 Yale University 计算机科学系
一眼看懂 封面预览

论文提出了 INSIGHT 框架,首个用于视觉-语言-动作模型的内省机制,利用推理时的token级不确定性信号预测机器人何时应请求人类帮助

  • 论文提出了 INSIGHT 框架,首个用于视觉-语言-动作模型的内省机制,利用推理时的token级不确定性信号预测机器人何时应请求人类帮助
  • 研究目标是解决VLA模型缺乏内省能力的问题,使其能识别潜在失败并主动请求干预,实现人机闭环的终身学习
  • 核心问题:能否从token级概率分布提取的不确定性信号可靠预测VLA的求助时机,以及不同监督范式如何影响该能力
Card 01 研究单位

研究单位

  • 论文作者所属 Yale University 计算机科学系
Card 02 论文概述

论文概述

  • 论文提出了 INSIGHT 框架,首个用于视觉-语言-动作模型的内省机制,利用推理时的token级不确定性信号预测机器人何时应请求人类帮助
  • 研究目标是解决VLA模型缺乏内省能力的问题,使其能识别潜在失败并主动请求干预,实现人机闭环的终身学习
  • 核心问题:能否从token级概率分布提取的不确定性信号可靠预测VLA的求助时机,以及不同监督范式如何影响该能力
Card 03 核心贡献

核心贡献

  • 首创基于序列不确定性建模的VLA内省方法,证明token级不确定性序列结构比静态阈值(如保形预测)更有效
  • 提出并对比了两种监督范式:强监督(步级精细标注)与 弱监督(基于回合结果的多实例学习)
  • 设计轻量级Transformer架构(约30万-50万参数)处理时序不确定性信号,生成实时帮助触发决策
  • 进行了全面的跨分布评估,量化标注成本、预测精度与泛化能力的权衡,建立了首个系统性评估基准
Card 04 方法描述

方法描述

  • 基于 π0-FAST 模型,提取每个生成token的四种不确定性特征:熵、负对数概率、随机性不确定性(AU)、认知不确定性(EU)
  • 将单步特征序列输入紧凑Transformer编码器,通过自注意力捕捉不确定性信号的时序演变模式
  • 强监督范式下直接训练步级二元分类器;弱监督范式下采用Log-Sum-Exp池化聚合回合信号,实现多实例学习
  • 关键创新:建模不确定性指标的时序动态而非静态聚合值,并适配VLA变长token序列与连续动作控制的特性
Card 05 数据集与资源

数据集与资源

  • 使用 自定义数据集(80,419步,5类任务)在真实厨房环境用xArm7机器人通过GELLO遥操作采集
  • 用于模拟OOD测试的 LIBERO数据集,包含截然不同的任务家族
  • 基础模型 π0-FAST(参数量未明确说明)经全参数微调适配目标环境
  • 分类器模型规模:强监督版本约 30万参数,弱监督版本约 50万参数
  • 未明确列出GPU/TPU等训练计算资源
Card 06 评估与结果

评估与结果

  • 评估环境:分布内测试、分布偏移测试、大规模分布内测试、模拟OOD测试、实时测试
  • 基准方法:基于熵和困惑度的 保形预测(CP)
  • 评估指标:分类准确率、F1分数,以及时序分析指标(首次求助时间(TTFH)触发计数触发率
  • 关键结果:强监督Transformer在几乎所有条件下达到最高F1分数;弱监督虽精度较低但更具实用性;基于序列的INSIGHT方法显著优于基于静态阈值的CP方法,证明了时序建模的重要性;在模拟OOD测试中,真实世界训练的强监督模型能有效迁移至仿真环境