一眼看懂
封面预览
论文提出了 INSIGHT 框架,首个用于视觉-语言-动作模型的内省机制,利用推理时的token级不确定性信号预测机器人何时应请求人类帮助
- 论文提出了 INSIGHT 框架,首个用于视觉-语言-动作模型的内省机制,利用推理时的token级不确定性信号预测机器人何时应请求人类帮助
- 研究目标是解决VLA模型缺乏内省能力的问题,使其能识别潜在失败并主动请求干预,实现人机闭环的终身学习
- 核心问题:能否从token级概率分布提取的不确定性信号可靠预测VLA的求助时机,以及不同监督范式如何影响该能力
Card 01
研究单位
研究单位
- 论文作者所属 Yale University 计算机科学系
Card 02
论文概述
论文概述
- 论文提出了 INSIGHT 框架,首个用于视觉-语言-动作模型的内省机制,利用推理时的token级不确定性信号预测机器人何时应请求人类帮助
- 研究目标是解决VLA模型缺乏内省能力的问题,使其能识别潜在失败并主动请求干预,实现人机闭环的终身学习
- 核心问题:能否从token级概率分布提取的不确定性信号可靠预测VLA的求助时机,以及不同监督范式如何影响该能力
Card 03
核心贡献
核心贡献
- 首创基于序列不确定性建模的VLA内省方法,证明token级不确定性序列结构比静态阈值(如保形预测)更有效
- 提出并对比了两种监督范式:强监督(步级精细标注)与 弱监督(基于回合结果的多实例学习)
- 设计轻量级Transformer架构(约30万-50万参数)处理时序不确定性信号,生成实时帮助触发决策
- 进行了全面的跨分布评估,量化标注成本、预测精度与泛化能力的权衡,建立了首个系统性评估基准
Card 04
方法描述
方法描述
- 基于 π0-FAST 模型,提取每个生成token的四种不确定性特征:熵、负对数概率、随机性不确定性(AU)、认知不确定性(EU)
- 将单步特征序列输入紧凑Transformer编码器,通过自注意力捕捉不确定性信号的时序演变模式
- 强监督范式下直接训练步级二元分类器;弱监督范式下采用Log-Sum-Exp池化聚合回合信号,实现多实例学习
- 关键创新:建模不确定性指标的时序动态而非静态聚合值,并适配VLA变长token序列与连续动作控制的特性
Card 05
数据集与资源
数据集与资源
- 使用 自定义数据集(80,419步,5类任务)在真实厨房环境用xArm7机器人通过GELLO遥操作采集
- 用于模拟OOD测试的 LIBERO数据集,包含截然不同的任务家族
- 基础模型 π0-FAST(参数量未明确说明)经全参数微调适配目标环境
- 分类器模型规模:强监督版本约 30万参数,弱监督版本约 50万参数
- 未明确列出GPU/TPU等训练计算资源
Card 06
评估与结果
评估与结果
- 评估环境:分布内测试、分布偏移测试、大规模分布内测试、模拟OOD测试、实时测试
- 基准方法:基于熵和困惑度的 保形预测(CP)
- 评估指标:分类准确率、F1分数,以及时序分析指标(首次求助时间(TTFH)、触发计数、触发率)
- 关键结果:强监督Transformer在几乎所有条件下达到最高F1分数;弱监督虽精度较低但更具实用性;基于序列的INSIGHT方法显著优于基于静态阈值的CP方法,证明了时序建模的重要性;在模拟OOD测试中,真实世界训练的强监督模型能有效迁移至仿真环境