Do What? Teaching Vision-Language-Action Models to Reject the Impossible

一眼看懂封面预览

研究如何让 Vision-Language-Action (VLA) 模型识别并拒绝基于错误前提（false-premise）的指令，即用户指…

Card 01 研究单位

研究单位

University of California, Berkeley
作者：Wen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan

Card 02 论文概述

研究如何让 Vision-Language-Action (VLA) 模型识别并拒绝基于错误前提（false-premise）的指令，即用户指令中引用了环境中不存在的对象或条件
提出 Instruct-Verify-and-Act (IVA) 统一框架，使机器人能够检测无法执行的指令、进行语言澄清或修正，并将合理替代方案落实到感知和行动中

Card 03 核心贡献

Card 04 方法描述

基于 LLARVA 架构，采用端到端指令微调方法，冻结视觉编码器（CLIP ViT-L/14）和语言编码器，使用 LoRA 适配器微调自回归Transformer解码器
输入包含视觉观测、结构化自然语言指令、机器人本体状态和前序步骤，输出预测机器人动作和视觉轨迹（visual traces）
设计两类错误前提：In-Domain（几何相似、上下文合理的对象）和 Out-of-Domain（明显不可行的请求），分别采用澄清修正和拒绝终止策略
数据集构成：约20% Out-of-Domain 错误前提，65% In-Domain 错误前提（注入10%的步骤中）

Card 05 数据集与资源

Card 06 评估与结果

评估基准：9个 RLBench 任务（meat off grill, open drawer, push buttons, put money in safe, reach and drag, slide block, sweep to dustpan, turn tap, close jar）
评估指标：错误前提检测准确率（In-Domain/Out-of-Domain）、真实前提任务成功率、总体成功率
关键结果：

- IVA 在 In-Domain 错误前提检测上达到 100%，Out-of-Domain 达到 97.78%

- 与基线 LLARVA（0%检测率）相比，IVA 总体成功率显著提升（如 slide block 任务：96% vs 44%）

- 真实前提任务成功率保持在 42.67%±8.34%，与基线（38.67%±8.55%）相比无显著下降