返回列表 VLA / Vision-Language-Action 每日论文卡

Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

论文详情

Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

2025-05-21 · 原文 · 翻译 · 2505.15660

论文聚焦于视觉-语言-行动(VLA)模型在零样本跨任务泛化方面的能力,这是一个对实现通用机器人操作至关重要但尚未被充分探索的问题。 研究揭示了现有VLA模型在未见任务上泛化能力严重不足的局限性,并为此提出了一个全新的仿真基准 AGNOSTOS 和一种创新方法 X-ICM 来推动该领域发展。 核心目标是系统评估并提升VLA模型在处理全新、未见过的操作任务时的泛化性能。

5 分钟读完 6 张阅读卡 香港科技大学(广州)
一眼看懂 封面预览

论文聚焦于视觉-语言-行动(VLA)模型在零样本跨任务泛化方面的能力,这是一个对实现通用机器人操作至关重要但尚未被充分探索的问题。

  • 论文聚焦于视觉-语言-行动(VLA)模型在零样本跨任务泛化方面的能力,这是一个对实现通用机器人操作至关重要但尚未被充分探索的问题。
  • 研究揭示了现有VLA模型在未见任务上泛化能力严重不足的局限性,并为此提出了一个全新的仿真基准 AGNOSTOS 和一种创新方法 X-ICM 来…
  • 核心目标是系统评估并提升VLA模型在处理全新、未见过的操作任务时的泛化性能。
Card 01 研究单位

研究单位

  • 香港科技大学(广州)
  • 香港大学
  • 中山大学
  • 香港科技大学
Card 02 论文概述

论文概述

  • 论文聚焦于视觉-语言-行动(VLA)模型零样本跨任务泛化方面的能力,这是一个对实现通用机器人操作至关重要但尚未被充分探索的问题。
  • 研究揭示了现有VLA模型在未见任务上泛化能力严重不足的局限性,并为此提出了一个全新的仿真基准 AGNOSTOS 和一种创新方法 X-ICM 来推动该领域发展。
  • 核心目标是系统评估并提升VLA模型在处理全新、未见过的操作任务时的泛化性能。
Card 03 核心贡献

核心贡献

  • 提出了 AGNOSTOS,这是首个专门用于系统评估机器人操作中VLA模型零样本跨任务泛化能力的基准,包含23个设计精良的未见任务,并划分为两个难度等级。
  • 提出了 Cross-Task In-Context Manipulation (X-ICM) 方法,该方法利用大语言模型的上下文学习能力,结合动力学引导的样本选择策略,显著提升了模型在未见任务上的行动预测能力。
  • 对三大类VLA模型(基础模型、人类视频预训练模型、域内训练模型)进行了广泛且系统的评估,揭示了当前方法的根本局限性,并展示了X-ICM方法的优越性能。
Card 04 方法描述

方法描述

  • X-ICM 方法包含两个核心模块:动力学引导样本选择模块跨任务上下文预测模块
  • 核心创新在于利用一个动力学扩散模型来学习每个演示的动态表示(通过预测最终观察结果),并基于此计算与未见任务的动态相似性,从而从已见任务中检索出最相关的演示作为上下文示例。
  • 该方法将检索到的演示文本化(包含物体位置和关键动作序列),构建成提示词,驱动LLM直接为未见任务预测离散的关键动作序列,实现了无需参数更新的跨任务泛化。
Card 05 数据集与资源

数据集与资源

  • AGNOSTOS基准基于 RLBench 仿真环境构建,包含18个已见训练任务(每个任务200个演示,共3600个)和23个未见测试任务。
  • 测试任务分为两级:Level-1(13个任务)与已见任务有部分语义重叠;Level-2(10个任务)涉及完全新颖的物体和动作,挑战性更大。
  • 主要使用 Qwen2.5-Instruct 系列模型,包括 X-ICM (7B)X-ICM (72B) 两种规模,分别部署在两个和八个 A6000 GPU 上。
Card 06 评估与结果

评估与结果

  • AGNOSTOS 基准的23个未见任务上与多种现有VLA模型进行了比较评估。
  • 主要评估指标为任务成功率,每个任务进行多次测试并报告平均值与标准差。
  • X-ICM (72B) 模型取得了最优的整体性能,平均成功率达到 30.1%,相比当前先进的VLA基础模型 π₀ 提升了 6.0%,相比模块化方法 VoxPoser 提升了 7.9%。更重要的是,它是唯一一个在所有23个任务上均取得非零成功率的模型,展现了更鲁棒的泛化能力。