RationalVLA: A Rational Vision-Language-Action Model with Dual System

论文详情

RationalVLA: A Rational Vision-Language-Action Model with Dual System

2025-06-12 · 原文 · 翻译 · 2506.10826

论文提出了 Rational Manipulation (RAMA) 基准测试，用于评估模型在包含缺陷指令和未见指令的复杂、现实场景下的语言理解与泛化能力。论文提出了 RationalVLA 模型，这是一个双系统视觉-语言-动作模型，旨在感知环境、推理指令合理性、拒绝不可行指令并有效执行操作任务。论文要解决的核心问题是：现有语言条件操作模型假设指令与环境完美对齐，无法处理现实中常见的模糊、无关或不可行的缺陷指令…

4 分钟读完 6 张阅读卡香港科技大学（广州）

一眼看懂封面预览

论文提出了 Rational Manipulation (RAMA) 基准测试，用于评估模型在包含缺陷指令和未见指令的复杂、现实场景下的语言理…

论文提出了 Rational Manipulation (RAMA) 基准测试，用于评估模型在包含缺陷指令和未见指令的复杂、现实场景下的语言理…
论文提出了 RationalVLA 模型，这是一个双系统视觉-语言-动作模型，旨在感知环境、推理指令合理性、拒绝不可行指令并有效执行操作任务。
论文要解决的核心问题是：现有语言条件操作模型假设指令与环境完美对齐，无法处理现实中常见的模糊、无关或不可行的缺陷指令，导致鲁棒性与泛化能力不足。

Card 01 研究单位

研究单位

香港科技大学（广州）
西湖大学
莫纳什大学
上海交通大学

Card 02 论文概述

论文概述

论文提出了 Rational Manipulation (RAMA) 基准测试，用于评估模型在包含缺陷指令和未见指令的复杂、现实场景下的语言理解与泛化能力。
论文提出了 RationalVLA 模型，这是一个双系统视觉-语言-动作模型，旨在感知环境、推理指令合理性、拒绝不可行指令并有效执行操作任务。
论文要解决的核心问题是：现有语言条件操作模型假设指令与环境完美对齐，无法处理现实中常见的模糊、无关或不可行的缺陷指令，导致鲁棒性与泛化能力不足。

Card 03 核心贡献

核心贡献

提出了 RAMA 基准测试，包含跨视觉、物理、语义、运动、安全和上下文无关六个维度的缺陷指令，以及超过 14,000 个样本的数据集。
提出了 RationalVLA 模型，这是一种双系统架构，通过可学习的潜在空间嵌入将高层多模态大语言模型与底层操作策略端到端集成，使其能有效处理未见和缺陷指令。
实验证明，RationalVLA 在 RAMA 基准上，最后一项任务成功率比最先进基线高出 14.5%，平均任务长度提升 0.94，同时保持了在标准操作任务上的竞争力。

Card 04 方法描述

方法描述

RationalVLA 采用双系统架构：高层为 MLLM（如LLaVA），负责视觉-语言理解与推理；底层为 3D Diffuser Actor 策略，负责生成具体的机器人动作。
创新点在于引入两个特殊令牌作为接口：令牌用于指示底层策略输出动作；令牌用于根据当前观测拒绝缺陷指令。
关键技术是学习可潜在空间嵌入，使高层推理能无损失地传递给底层策略，并通过两阶段训练（特征对齐预训练、端到端微调）和 LoRA 高效微调实现模型整合。

Card 05 数据集与资源

数据集与资源

使用基于 CALVIN 仿真环境构建的 RAMA 基准测试。
数据集包含 14,412 条语言指令，其中 14,253 条用于训练，159 条缺陷指令专门用于测试。
模型高层使用 LLaVA 等预训练MLLM，底层使用 3D Diffuser Actor 策略。
训练采用 LoRA 技术进行高效微调。

Card 06 评估与结果

评估与结果

评估在 CALVIN ABC→D 设置下进行，包含未见指令和缺陷指令的挑战。
主要评估指标包括不同任务长度的成功率 和平均任务长度。
关键实验结果：在 RAMA 基准上，RationalVLA 在 1/5 到 5/5 任务长度上的成功率均显著优于基线，最终任务成功率达到 20.7%，平均任务长度为 2.26。
模型在标准操作任务上表现具有竞争力，并在真实世界实验中验证了其有效性和鲁棒性。