返回列表 VLA / Vision-Language-Action 每日论文卡
Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols
论文提出了 ViFailback 框架,旨在通过视觉符号诊断机器人操作失败并提供文本和视觉纠正指导。

论文详情

Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols

2025-12-02 · 原文 · 翻译 · 2512.02787

论文提出了 ViFailback 框架,旨在通过视觉符号诊断机器人操作失败并提供文本和视觉纠正指导。 解决了现有 VLA 模型在面对分布外(OOD)条件时缺乏失败诊断与恢复能力的问题,以及现有失败数据集多基于模拟而难以泛化到真实世界的局限性。 构建了大规模真实世界数据集 ViFailback 和基准 ViFailback-Bench,并训练了专用模型以验证框架的有效性。

4 分钟读完 6 张阅读卡 北京航空航天大学
一眼看懂 封面预览

论文提出了 ViFailback 框架,旨在通过视觉符号诊断机器人操作失败并提供文本和视觉纠正指导。

  • 论文提出了 ViFailback 框架,旨在通过视觉符号诊断机器人操作失败并提供文本和视觉纠正指导。
  • 解决了现有 VLA 模型在面对分布外(OOD)条件时缺乏失败诊断与恢复能力的问题,以及现有失败数据集多基于模拟而难以泛化到真实世界的局限性。
  • 构建了大规模真实世界数据集 ViFailback 和基准 ViFailback-Bench,并训练了专用模型以验证框架的有效性。
Card 01 研究单位

研究单位

  • 北京航空航天大学
  • 上海创新研究所
  • 南方科技大学
  • 上海交通大学
Card 02 论文概述

论文概述

  • 论文提出了 ViFailback 框架,旨在通过视觉符号诊断机器人操作失败并提供文本和视觉纠正指导。
  • 解决了现有 VLA 模型在面对分布外(OOD)条件时缺乏失败诊断与恢复能力的问题,以及现有失败数据集多基于模拟而难以泛化到真实世界的局限性。
  • 构建了大规模真实世界数据集 ViFailback 和基准 ViFailback-Bench,并训练了专用模型以验证框架的有效性。
Card 03 核心贡献

核心贡献

  • 提出了 ViFailback 框架,利用显式视觉符号高效标注真实世界的机器人失败视频。
  • 发布了包含 58,126 个 VQA 对的大规模数据集,涵盖 5,202 条真实世界操作轨迹,并建立了包含 11 个细粒度任务的 ViFailback-Bench 基准。
  • 基于数据集微调得到了 ViFailback-8B 模型,该模型在基准测试中表现优异,并在真实机器人实验中成功辅助 VLA 模型从失败中恢复。
Card 04 方法描述

方法描述

  • 设计了 7 种视觉符号用于标注,分为 运动符号(如彩色直箭头、半圆箭头)、空间关系符号(如十字准线)和 状态符号(如 ON/OFF 标签、禁止图标)。
  • 定义了细粒度任务,包括失败诊断(检测、定位、类型识别、原因分析)和纠正行动指导(低级文本、高级文本、视觉指导)。
  • 采用多阶段数据标注流水线,结合人工操作与 VLM(如 Qwen3-VL-235B)辅助生成高质量标注。
  • 基于 Qwen3-VL-8B 模型进行微调,使其能够生成视觉符号和纠正指导。
Card 05 数据集与资源

数据集与资源

  • ViFailback 数据集:包含 58,126 个 VQA 对,源自 5,202 条真实世界轨迹,覆盖 100 个不同任务。
  • ViFailback-Bench 基准:包含 500 条轨迹,分为 Lite(封闭式 VQA)和 Hard(开放式 VQA)两个版本。
  • 训练资源:使用 4 张 NVIDIA Hopper GPUs,采用 LoRA 微调技术。
Card 06 评估与结果

评估与结果

  • 评估环境:在 ViFailback-Bench 上对比了 16 个 SOTA 模型(包括 GPT-4oGemini-2.5-Pro 等)。
  • 评估指标:封闭式问题使用准确率,开放式问题使用基于 GPT-4o 的评分(语义相似度、内容完整性、功能等效性)。
  • 关键结果:ViFailback-8B 在基准测试中显著优于其他开源和闭源模型;在真实世界机器人实验中,集成该模型使任务平均成功率提升了 22.2%