Bring the Apple, Not the Sofa: Impact of Irrelevant Context in Embodied AI Commands on VLA Models

一眼看懂封面预览

研究视觉语言动作（Vision-Language-Action, VLA）模型在具身AI任务中对语言扰动的鲁棒性

Card 01 研究单位

研究单位

根据论文作者信息和通讯邮箱（sedyakina.d@gmail.com），作者团队可能来自俄罗斯的研究机构
论文作者包括：Daria Pugacheva、Andrey Moskalenko、Denis Shepelev、Andrey Kuznetsov、Vlad Shakhuro、Elena Tutubalina

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

- 按长度分类：Single（单个词）、Short（3-5词）、Long（7-10词）

- 按语义相似度分类：Description（对象描述）、Infeasible（不可执行命令）、Location（位置信息）

过滤框架：使用不同规模的LLM（从Flan-T5 Base到Meta-Llama-3-8B-Instruct）进行few-shot提示，过滤掉无关上下文
人工改写收集：通过众包平台Toloka.ai收集人工改写的机器人指令

Card 05 数据集与资源

- OpenVLA：7B参数，基于Llama 2

- π₀：Black等人2024年提出

- LLARP：用于Habitat 2.0导航任务

Card 06 评估与结果

- 随机无关上下文：性能下降约10%以内

- 语义相似上下文：性能下降约50%

- 人工改写：平均下降约20%，UniAct在LIBERO-Object任务上下降达50%

- 小模型（0.5B）可有效过滤随机上下文

- 大模型（3B以上）如Llama 3.2-3B和Meta-Llama-3-8B-Instruct可恢复超过90%的原始性能

- 在LIBERO基准上，使用Meta-Llama-3-8B-Instruct过滤后，几乎所有无关上下文类型都被成功过滤