一眼看懂
封面预览
论文提出了 VINE (Vision–Language–Action model Integrating Negative Experienc…
- 论文提出了 VINE (Vision–Language–Action model Integrating Negative Experienc…
- 该研究解决了现有 VLA 模型通常丢弃失败演示数据的问题,指出失败数据包含了策略脆弱性的关键信息。
- 模型采用双系统架构:System 2 负责高层的可行性推理与规划,System 1 负责底层的动作执行,通过分层强化学习(HRL)框架将失败数…
Card 01
研究单位
研究单位
- Korea University(高丽大学):人工智能系、统计学系
- KAIST(韩国科学技术院):Kim Jaechul 人工智能研究生院
- Seoul National University(首尔国立大学):航空航天工程系
- NAVER AI Lab
Card 02
论文概述
论文概述
- 论文提出了 VINE (Vision–Language–Action model Integrating Negative Experience),这是一个分层视觉-语言-动作模型,旨在利用混合质量的数据集(包含成功和失败的演示)来提升机器人策略的鲁棒性。
- 该研究解决了现有 VLA 模型通常丢弃失败演示数据的问题,指出失败数据包含了策略脆弱性的关键信息。
- 模型采用双系统架构:System 2 负责高层的可行性推理与规划,System 1 负责底层的动作执行,通过分层强化学习(HRL)框架将失败数据转化为结构化的学习信号。
Card 03
核心贡献
核心贡献
- 提出了一种利用离线失败数据训练 System 2 模型的方法,将其集成到基于树的规划器中,通过预测成功概率来评估候选步骤。
- 引入了一个基于 HRL 的分层 VLA 框架,将可行性感知的高层规划与低层动作执行分离。
- 构建了基于 2D 场景图的抽象表示,使规划器能够通过可行性引导的树搜索来剪除不可靠的分支。
- 实验证明该方法在具有挑战性的操作任务中显著提高了成功率和鲁棒性。
Card 04
方法描述
方法描述
- 架构设计:模型基于预训练的 $\pi_0$ VLA 骨干网络,并将其与 PaliGemma 语言模型骨干进行权重合并,同时使用 LoRA 适配器进行微调,以兼顾动作生成和文本推理能力。
- System 2 (高层推理):将规划问题建模为基于 2D 场景图的树搜索。它包含一个选项生成器(生成边/子目标)、一个世界模型(预测节点/下一状态)和一个价值预测器。价值函数通过 Expectile Loss 从混合质量数据中学习,代表节点的成功概率。
- System 1 (底层执行):采用 Flow Matching 模型生成动作块,并包含一个“完成专家”来检测子目标的终止条件。System 1 仅在成功演示数据上进行训练。
- 推理流程:System 2 首先进行批量蒙特卡洛树搜索(MCTS),选择价值最高的路径,然后 System 1 执行选定的子目标序列。
Card 05
数据集与资源
数据集与资源
- 使用了包含成功和失败轨迹的离线遥操作数据集。
- 仿真环境包括:Plug Insertion(插头插入)、Drawer Packing(抽屉打包)和 Simpler Environment。
- 真实世界环境用于验证方法的有效性。
- 模型骨干基于 $\pi_0$ 和 PaliGemma。
Card 06
评估与结果
评估与结果
- 评估环境包括仿真和真实世界的复杂操作任务。
- 基准对比包括统一的 VLA 模型和 VLM-as-Planner 基线。
- 主要评估指标为任务成功率。
- 实验结果显示,该方法在成功率上显著优于仅在成功数据上训练的基线模型,证明了失败数据对于提升鲁棒性的重要性。
- 消融研究验证了失败数据和树搜索算法在提升性能中的关键作用。