提出了一个名为 GeneralVLA 的层次化视觉-语言-动作模型，旨在利用基础模型的泛化能力，实现零样本机器人操作和自动生成机器人数据。

论文详情

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

2026-02-04 · 原文 · 翻译 · 2602.04315

提出了一个名为 GeneralVLA 的层次化视觉-语言-动作模型，旨在利用基础模型的泛化能力，实现零样本机器人操作和自动生成机器人数据。解决现有单一架构VLA模型在零样本泛化能力、精细坐标预测和长时规划方面的不足。该方法无需真实世界机器人数据或人类演示，具有更高的可扩展性。

4 分钟读完 6 张阅读卡 CASIA

一眼看懂封面预览

提出了一个名为 GeneralVLA 的层次化视觉-语言-动作模型，旨在利用基础模型的泛化能力，实现零样本机器人操作和自动生成机器人数据。

提出了一个名为 GeneralVLA 的层次化视觉-语言-动作模型，旨在利用基础模型的泛化能力，实现零样本机器人操作和自动生成机器人数据。
解决现有单一架构VLA模型在零样本泛化能力、精细坐标预测和长时规划方面的不足。
该方法无需真实世界机器人数据或人类演示，具有更高的可扩展性。

Card 01 研究单位

研究单位

CASIA
北京大学

Card 02 论文概述

论文概述

提出了一个名为 GeneralVLA 的层次化视觉-语言-动作模型，旨在利用基础模型的泛化能力，实现零样本机器人操作和自动生成机器人数据。
解决现有单一架构VLA模型在零样本泛化能力、精细坐标预测和长时规划方面的不足。
该方法无需真实世界机器人数据或人类演示，具有更高的可扩展性。

Card 03 核心贡献

核心贡献

提出了一个零样本 3D轨迹规划框架，通过层次化VLA架构充分利用基础模型的先验知识。
设计了 ASM（Affordance Segmentation Module） 和 知识库，前者结合VLM与SAM实现精确的功能可见性分割，后者用于存储和重用跨任务技能。
实验证明，该方法在多样化操作任务中实现了高零样本准确率，且其生成的数据质量高、可扩展，可用于训练鲁棒的行为克隆策略。

Card 04 方法描述

方法描述

采用三层层次化架构：高层 ASM 负责场景感知与物体关键点定位；中层 3DAgent 进行任务理解、技能调用与轨迹规划，生成3D路径；底层策略根据3D路径执行精确操作。
ASM 将多模态大语言模型（MLLM）与 SAM 结合，并通过迭代优化机制提升分割精度。
引入 知识库 以实现经验的总结、存储与重用，形成闭环学习。
设计 HGM 模块融合RGB、深度和3D点信息，以提升抓取姿态估计的精度。

Card 05 数据集与资源

数据集与资源

主要使用 RLBench 仿真基准进行评估，涵盖 14 个多样化的操作任务。
在真实世界实验中使用 Agilex-2.0 Piper 机械臂和 Intel RealSense L515 RGB-D相机。
行为克隆策略的训练在 单张RTX A40 GPU 上完成。
使用 Deepseek R1 作为推理和规划的文本大模型。

Card 06 评估与结果

评估与结果

在 RLBench 仿真环境的14项任务中进行零样本评估，并在 10项 任务上优于 VoxPoser、Code-as-Policies、Scaling-up 等最先进方法。
使用GeneralVLA生成的数据训练的 RVT-2 行为克隆策略，其性能接近使用人类专家演示训练的策略，且优于其他自动生成数据训练的策略。
真实世界实验在4项代表性任务（如移动喷壶、开抽屉、开罐子、物体分类）上成功展示了零样本操作能力。