Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

论文详情

Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

2025-05-21 · 原文 · 翻译 · 2505.15660

论文聚焦于视觉-语言-行动（VLA）模型在零样本跨任务泛化方面的能力，这是一个对实现通用机器人操作至关重要但尚未被充分探索的问题。研究揭示了现有VLA模型在未见任务上泛化能力严重不足的局限性，并为此提出了一个全新的仿真基准 AGNOSTOS 和一种创新方法 X-ICM 来推动该领域发展。核心目标是系统评估并提升VLA模型在处理全新、未见过的操作任务时的泛化性能。

5 分钟读完 6 张阅读卡香港科技大学（广州）

一眼看懂封面预览

论文聚焦于视觉-语言-行动（VLA）模型在零样本跨任务泛化方面的能力，这是一个对实现通用机器人操作至关重要但尚未被充分探索的问题。

论文聚焦于视觉-语言-行动（VLA）模型在零样本跨任务泛化方面的能力，这是一个对实现通用机器人操作至关重要但尚未被充分探索的问题。
研究揭示了现有VLA模型在未见任务上泛化能力严重不足的局限性，并为此提出了一个全新的仿真基准 AGNOSTOS 和一种创新方法 X-ICM 来…
核心目标是系统评估并提升VLA模型在处理全新、未见过的操作任务时的泛化性能。

Card 01 研究单位

研究单位

香港科技大学（广州）
香港大学
中山大学
香港科技大学

Card 02 论文概述

论文概述

论文聚焦于视觉-语言-行动（VLA）模型在零样本跨任务泛化方面的能力，这是一个对实现通用机器人操作至关重要但尚未被充分探索的问题。
研究揭示了现有VLA模型在未见任务上泛化能力严重不足的局限性，并为此提出了一个全新的仿真基准 AGNOSTOS 和一种创新方法 X-ICM 来推动该领域发展。
核心目标是系统评估并提升VLA模型在处理全新、未见过的操作任务时的泛化性能。

Card 03 核心贡献

核心贡献

提出了 AGNOSTOS，这是首个专门用于系统评估机器人操作中VLA模型零样本跨任务泛化能力的基准，包含23个设计精良的未见任务，并划分为两个难度等级。
提出了 Cross-Task In-Context Manipulation (X-ICM) 方法，该方法利用大语言模型的上下文学习能力，结合动力学引导的样本选择策略，显著提升了模型在未见任务上的行动预测能力。
对三大类VLA模型（基础模型、人类视频预训练模型、域内训练模型）进行了广泛且系统的评估，揭示了当前方法的根本局限性，并展示了X-ICM方法的优越性能。

Card 04 方法描述

方法描述

X-ICM 方法包含两个核心模块：动力学引导样本选择模块和跨任务上下文预测模块。
核心创新在于利用一个动力学扩散模型来学习每个演示的动态表示（通过预测最终观察结果），并基于此计算与未见任务的动态相似性，从而从已见任务中检索出最相关的演示作为上下文示例。
该方法将检索到的演示文本化（包含物体位置和关键动作序列），构建成提示词，驱动LLM直接为未见任务预测离散的关键动作序列，实现了无需参数更新的跨任务泛化。

Card 05 数据集与资源

数据集与资源

AGNOSTOS基准基于 RLBench 仿真环境构建，包含18个已见训练任务（每个任务200个演示，共3600个）和23个未见测试任务。
测试任务分为两级：Level-1（13个任务）与已见任务有部分语义重叠；Level-2（10个任务）涉及完全新颖的物体和动作，挑战性更大。
主要使用 Qwen2.5-Instruct 系列模型，包括 X-ICM (7B) 和 X-ICM (72B) 两种规模，分别部署在两个和八个 A6000 GPU 上。

Card 06 评估与结果

评估与结果

在 AGNOSTOS 基准的23个未见任务上与多种现有VLA模型进行了比较评估。
主要评估指标为任务成功率，每个任务进行多次测试并报告平均值与标准差。
X-ICM (72B) 模型取得了最优的整体性能，平均成功率达到 30.1%，相比当前先进的VLA基础模型 π₀ 提升了 6.0%，相比模块化方法 VoxPoser 提升了 7.9%。更重要的是，它是唯一一个在所有23个任务上均取得非零成功率的模型，展现了更鲁棒的泛化能力。