Goal-VLA: Image-Generative VLMs as Object-Centric World Models Empowering Zero-shot Robot Manipulation

论文详情

Goal-VLA: Image-Generative VLMs as Object-Centric World Models Empowering Zero-shot Robot Manipulation

2025-06-30 · 原文 · 翻译 · 2506.23919

论文旨在解决机器人操作任务中模型泛化能力不足的核心挑战，特别是在零样本场景下。提出了 Goal-VLA 框架，利用图像生成式视觉语言模型作为以物体为中心的世界模型，生成目标状态图像，并由此导出目标物体姿态，实现可泛化的操作。该框架将系统解耦为高层语义推理与底层动作控制，通过中间的物体状态表示进行连接，并引入了“反思-合成”机制以优化生成的目标图像。

4 分钟读完 6 张阅读卡新加坡国立大学计算机学院

一眼看懂封面预览

论文旨在解决机器人操作任务中模型泛化能力不足的核心挑战，特别是在零样本场景下。

论文旨在解决机器人操作任务中模型泛化能力不足的核心挑战，特别是在零样本场景下。
提出了 Goal-VLA 框架，利用图像生成式视觉语言模型作为以物体为中心的世界模型，生成目标状态图像，并由此导出目标物体姿态，实现可泛化的操…
该框架将系统解耦为高层语义推理与底层动作控制，通过中间的物体状态表示进行连接，并引入了“反思-合成”机制以优化生成的目标图像。

Card 01 研究单位

研究单位

新加坡国立大学 计算机学院
香港大学 数据科学研究院
北京大学 元培学院
清华大学 自动化系

Card 02 论文概述

论文概述

论文旨在解决机器人操作任务中模型泛化能力不足的核心挑战，特别是在零样本场景下。
提出了 Goal-VLA 框架，利用图像生成式视觉语言模型作为以物体为中心的世界模型，生成目标状态图像，并由此导出目标物体姿态，实现可泛化的操作。
该框架将系统解耦为高层语义推理与底层动作控制，通过中间的物体状态表示进行连接，并引入了“反思-合成”机制以优化生成的目标图像。

Card 03 核心贡献

核心贡献

提出了 Goal-VLA，一种解耦的分层操作框架，利用图像生成式VLM作为世界模型来生成目标物体状态，以此作为连接高层语义推理与底层动作控制的桥梁。
引入了 反思-合成 迭代优化过程，通过合成与检查虚拟目标物体图像，对生成的目标图像进行验证与精炼，提升了系统的鲁棒性。
证明了 Goal-VLA 在无需任何任务特定微调的情况下，在模拟和真实世界的多样化操作任务中实现了优异的零样本泛化性能。

Card 04 方法描述

方法描述

框架分为三个阶段：目标状态推理、空间接地 与 低层策略。
在目标状态推理阶段，使用VLM增强提示词并生成候选目标图像，通过 反思-合成 循环（生成、合成覆盖、反思修正）迭代优化，最终输出经过验证的目标图像、掩码和深度图。
在空间接地阶段，使用语义特征匹配建立初始图像与目标图像间的像素对应关系，并通过深度对齐和点云配准计算出物体精确的3D变换（旋转与平移）。
在低层策略阶段，基于物体变换和初始接触位姿计算末端执行器的目标位姿，并使用运动规划器生成无碰撞轨迹。

Card 05 数据集与资源

数据集与资源

仿真实验：使用 RLBench 基准测试环境，包含8个代表性任务（如抓取杯子、开酒瓶、放置物体等）。
真实世界实验：使用 UFACTORY X-ARM 7 机械臂和 Orbbec Femto Bolt RGB-D相机，设计了4个任务（如番茄入锅、桌面清扫、称重鸭子、扶起瓶子）。
模型为纯推理框架，无需训练过程，未提及特定训练资源（GPU/TPU）。

Card 06 评估与结果

评估与结果

在 RLBench 的8项任务上，Goal-VLA 平均成功率达到 59.9%，显著优于所有基线方法（如MOKA 26.0%，VoxPoser 5.8%）。
在真实世界的4项任务中，Goal-VLA 平均成功率为 60%，远超对比方法（MOKA 22.5%，MolmoAct 27.5%）。
消融实验证实，输入增强 和 反思-合成 过程均对性能提升有关键贡献，组合后效果最佳。
框架展现出跨任务、环境、物体类别和机器人本体的强大零样本泛化能力。