论文提出了 ViFailback 框架，旨在通过视觉符号诊断机器人操作失败并提供文本和视觉纠正指导。

论文详情

Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols

2025-12-02 · 原文 · 翻译 · 2512.02787

论文提出了 ViFailback 框架，旨在通过视觉符号诊断机器人操作失败并提供文本和视觉纠正指导。解决了现有 VLA 模型在面对分布外（OOD）条件时缺乏失败诊断与恢复能力的问题，以及现有失败数据集多基于模拟而难以泛化到真实世界的局限性。构建了大规模真实世界数据集 ViFailback 和基准 ViFailback-Bench，并训练了专用模型以验证框架的有效性。

4 分钟读完 6 张阅读卡北京航空航天大学

一眼看懂封面预览

论文提出了 ViFailback 框架，旨在通过视觉符号诊断机器人操作失败并提供文本和视觉纠正指导。

论文提出了 ViFailback 框架，旨在通过视觉符号诊断机器人操作失败并提供文本和视觉纠正指导。
解决了现有 VLA 模型在面对分布外（OOD）条件时缺乏失败诊断与恢复能力的问题，以及现有失败数据集多基于模拟而难以泛化到真实世界的局限性。
构建了大规模真实世界数据集 ViFailback 和基准 ViFailback-Bench，并训练了专用模型以验证框架的有效性。

Card 01 研究单位

研究单位

北京航空航天大学
上海创新研究所
南方科技大学
上海交通大学

Card 02 论文概述

论文概述

论文提出了 ViFailback 框架，旨在通过视觉符号诊断机器人操作失败并提供文本和视觉纠正指导。
解决了现有 VLA 模型在面对分布外（OOD）条件时缺乏失败诊断与恢复能力的问题，以及现有失败数据集多基于模拟而难以泛化到真实世界的局限性。
构建了大规模真实世界数据集 ViFailback 和基准 ViFailback-Bench，并训练了专用模型以验证框架的有效性。

Card 03 核心贡献

核心贡献

提出了 ViFailback 框架，利用显式视觉符号高效标注真实世界的机器人失败视频。
发布了包含 58,126 个 VQA 对的大规模数据集，涵盖 5,202 条真实世界操作轨迹，并建立了包含 11 个细粒度任务的 ViFailback-Bench 基准。
基于数据集微调得到了 ViFailback-8B 模型，该模型在基准测试中表现优异，并在真实机器人实验中成功辅助 VLA 模型从失败中恢复。

Card 04 方法描述

方法描述

设计了 7 种视觉符号用于标注，分为 运动符号（如彩色直箭头、半圆箭头）、空间关系符号（如十字准线）和 状态符号（如 ON/OFF 标签、禁止图标）。
定义了细粒度任务，包括失败诊断（检测、定位、类型识别、原因分析）和纠正行动指导（低级文本、高级文本、视觉指导）。
采用多阶段数据标注流水线，结合人工操作与 VLM（如 Qwen3-VL-235B）辅助生成高质量标注。
基于 Qwen3-VL-8B 模型进行微调，使其能够生成视觉符号和纠正指导。

Card 05 数据集与资源

数据集与资源

ViFailback 数据集：包含 58,126 个 VQA 对，源自 5,202 条真实世界轨迹，覆盖 100 个不同任务。
ViFailback-Bench 基准：包含 500 条轨迹，分为 Lite（封闭式 VQA）和 Hard（开放式 VQA）两个版本。
训练资源：使用 4 张 NVIDIA Hopper GPUs，采用 LoRA 微调技术。

Card 06 评估与结果

评估与结果

评估环境：在 ViFailback-Bench 上对比了 16 个 SOTA 模型（包括 GPT-4o、Gemini-2.5-Pro 等）。
评估指标：封闭式问题使用准确率，开放式问题使用基于 GPT-4o 的评分（语义相似度、内容完整性、功能等效性）。
关键结果：ViFailback-8B 在基准测试中显著优于其他开源和闭源模型；在真实世界机器人实验中，集成该模型使任务平均成功率提升了 22.2%。