一眼看懂
封面预览
研究如何让 Vision-Language-Action (VLA) 模型识别并拒绝基于错误前提(false-premise)的指令,即用户指…
- 研究如何让 Vision-Language-Action (VLA) 模型识别并拒绝基于错误前提(false-premise)的指令,即用户指…
- 提出 Instruct-Verify-and-Act (IVA) 统一框架,使机器人能够检测无法执行的指令、进行语言澄清或修正,并将合理替代方…
- 提出首个针对 VLA 模型的错误前提指令处理框架 IVA,实现检测-澄清-行动的三位一体能力
Card 01
研究单位
研究单位
- University of California, Berkeley
- 作者:Wen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan
Card 02
论文概述
论文概述
- 研究如何让 Vision-Language-Action (VLA) 模型识别并拒绝基于错误前提(false-premise)的指令,即用户指令中引用了环境中不存在的对象或条件
- 提出 Instruct-Verify-and-Act (IVA) 统一框架,使机器人能够检测无法执行的指令、进行语言澄清或修正,并将合理替代方案落实到感知和行动中
Card 03
核心贡献
核心贡献
- 提出首个针对 VLA 模型的错误前提指令处理框架 IVA,实现检测-澄清-行动的三位一体能力
- 构建大规模上下文增强的半合成数据集,包含配对的正确指令和错误前提指令,用于鲁棒检测和自然语言修正
- 在 RLBench 的9个机器人任务上验证,错误前提检测准确率比基线提升 97.56%,错误前提场景成功响应率提升 50.78%
- 在保持标准任务执行能力的同时,显著增强模型对不可能指令的安全处理能力
Card 04
方法描述
方法描述
- 基于 LLARVA 架构,采用端到端指令微调方法,冻结视觉编码器(CLIP ViT-L/14)和语言编码器,使用 LoRA 适配器微调自回归Transformer解码器
- 输入包含视觉观测、结构化自然语言指令、机器人本体状态和前序步骤,输出预测机器人动作和视觉轨迹(visual traces)
- 设计两类错误前提:In-Domain(几何相似、上下文合理的对象)和 Out-of-Domain(明显不可行的请求),分别采用澄清修正和拒绝终止策略
- 数据集构成:约20% Out-of-Domain 错误前提,65% In-Domain 错误前提(注入10%的步骤中)
Card 05
数据集与资源
数据集与资源
- RLBench:用于生成机器人轨迹和错误前提指令数据集
- Open X-Embodiment (OXE):预训练数据来源
- 训练配置:每任务800个episode,使用标准交叉熵损失进行端到端训练
- 模型架构:基于LLARVA的大规模多模态模型,视觉编码器为CLIP ViT-L/14
Card 06
评估与结果
评估与结果
- 评估基准:9个 RLBench 任务(meat off grill, open drawer, push buttons, put money in safe, reach and drag, slide block, sweep to dustpan, turn tap, close jar)
- 评估指标:错误前提检测准确率(In-Domain/Out-of-Domain)、真实前提任务成功率、总体成功率
- 关键结果:
- IVA 在 In-Domain 错误前提检测上达到 100%,Out-of-Domain 达到 97.78%
- 与基线 LLARVA(0%检测率)相比,IVA 总体成功率显著提升(如 slide block 任务:96% vs 44%)
- 真实前提任务成功率保持在 42.67%±8.34%,与基线(38.67%±8.55%)相比无显著下降