返回列表 VLA / Vision-Language-Action 每日论文卡

Do What? Teaching Vision-Language-Action Models to Reject the Impossible

论文详情

Do What? Teaching Vision-Language-Action Models to Reject the Impossible

2025-08-22 · 原文 · 翻译 · 2508.16292

研究如何让 Vision-Language-Action (VLA) 模型识别并拒绝基于错误前提(false-premise)的指令,即用户指令中引用了环境中不存在的对象或条件 提出 Instruct-Verify-and-Act (IVA) 统一框架,使机器人能够检测无法执行的指令、进行语言澄清或修正,并将合理替代方案落实到感知和行动中

5 分钟读完 6 张阅读卡 University of California, Berkeley
一眼看懂 封面预览

研究如何让 Vision-Language-Action (VLA) 模型识别并拒绝基于错误前提(false-premise)的指令,即用户指…

  • 研究如何让 Vision-Language-Action (VLA) 模型识别并拒绝基于错误前提(false-premise)的指令,即用户指…
  • 提出 Instruct-Verify-and-Act (IVA) 统一框架,使机器人能够检测无法执行的指令、进行语言澄清或修正,并将合理替代方…
  • 提出首个针对 VLA 模型的错误前提指令处理框架 IVA,实现检测-澄清-行动的三位一体能力
Card 01 研究单位

研究单位

  • University of California, Berkeley
  • 作者:Wen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan
Card 02 论文概述

论文概述

  • 研究如何让 Vision-Language-Action (VLA) 模型识别并拒绝基于错误前提(false-premise)的指令,即用户指令中引用了环境中不存在的对象或条件
  • 提出 Instruct-Verify-and-Act (IVA) 统一框架,使机器人能够检测无法执行的指令、进行语言澄清或修正,并将合理替代方案落实到感知和行动中
Card 03 核心贡献

核心贡献

  • 提出首个针对 VLA 模型的错误前提指令处理框架 IVA,实现检测-澄清-行动的三位一体能力
  • 构建大规模上下文增强的半合成数据集,包含配对的正确指令和错误前提指令,用于鲁棒检测和自然语言修正
  • RLBench 的9个机器人任务上验证,错误前提检测准确率比基线提升 97.56%,错误前提场景成功响应率提升 50.78%
  • 在保持标准任务执行能力的同时,显著增强模型对不可能指令的安全处理能力
Card 04 方法描述

方法描述

  • 基于 LLARVA 架构,采用端到端指令微调方法,冻结视觉编码器(CLIP ViT-L/14)和语言编码器,使用 LoRA 适配器微调自回归Transformer解码器
  • 输入包含视觉观测、结构化自然语言指令、机器人本体状态和前序步骤,输出预测机器人动作和视觉轨迹(visual traces)
  • 设计两类错误前提:In-Domain(几何相似、上下文合理的对象)和 Out-of-Domain(明显不可行的请求),分别采用澄清修正和拒绝终止策略
  • 数据集构成:约20% Out-of-Domain 错误前提,65% In-Domain 错误前提(注入10%的步骤中)
Card 05 数据集与资源

数据集与资源

  • RLBench:用于生成机器人轨迹和错误前提指令数据集
  • Open X-Embodiment (OXE):预训练数据来源
  • 训练配置:每任务800个episode,使用标准交叉熵损失进行端到端训练
  • 模型架构:基于LLARVA的大规模多模态模型,视觉编码器为CLIP ViT-L/14
Card 06 评估与结果

评估与结果

  • 评估基准:9个 RLBench 任务(meat off grill, open drawer, push buttons, put money in safe, reach and drag, slide block, sweep to dustpan, turn tap, close jar)
  • 评估指标:错误前提检测准确率(In-Domain/Out-of-Domain)、真实前提任务成功率、总体成功率
  • 关键结果

- IVA 在 In-Domain 错误前提检测上达到 100%,Out-of-Domain 达到 97.78%

- 与基线 LLARVA(0%检测率)相比,IVA 总体成功率显著提升(如 slide block 任务:96% vs 44%)

- 真实前提任务成功率保持在 42.67%±8.34%,与基线(38.67%±8.55%)相比无显著下降