论文提出 PosA-VLA 框架，旨在解决现有视觉-语言-动作模型无法生成一致、精确且面向目标的动作的问题。

论文详情

PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention

2025-12-03 · 原文 · 翻译 · 2512.03724

论文提出 PosA-VLA 框架，旨在解决现有视觉-语言-动作模型无法生成一致、精确且面向目标的动作的问题。研究指出，现有模型的缺陷源于其“空间均匀感知场”，导致模型易被无关物体分心，从而产生冗余或不稳定的运动轨迹。目标是通过位姿条件监督锚定视觉注意力，引导模型感知任务相关区域，从而提升动作生成的精度和效率。

4 分钟读完 6 张阅读卡 MBZUAI

一眼看懂封面预览

论文提出 PosA-VLA 框架，旨在解决现有视觉-语言-动作模型无法生成一致、精确且面向目标的动作的问题。

论文提出 PosA-VLA 框架，旨在解决现有视觉-语言-动作模型无法生成一致、精确且面向目标的动作的问题。
研究指出，现有模型的缺陷源于其“空间均匀感知场”，导致模型易被无关物体分心，从而产生冗余或不稳定的运动轨迹。
目标是通过位姿条件监督锚定视觉注意力，引导模型感知任务相关区域，从而提升动作生成的精度和效率。

Card 01 研究单位

研究单位

MBZUAI
AI2 Robotics
The University of Sydney
The University of Melbourne

Card 02 论文概述

论文概述

论文提出 PosA-VLA 框架，旨在解决现有视觉-语言-动作模型无法生成一致、精确且面向目标的动作的问题。
研究指出，现有模型的缺陷源于其“空间均匀感知场”，导致模型易被无关物体分心，从而产生冗余或不稳定的运动轨迹。
目标是通过位姿条件监督锚定视觉注意力，引导模型感知任务相关区域，从而提升动作生成的精度和效率。

Card 03 核心贡献

核心贡献

对现有VLA模型动作不一致的现象进行了实证分析，将其根源归结于模型的空间均匀感知场。
提出了 PosA-VLA 框架，通过位姿条件锚点注意力机制，显式地将机器人末端执行器的位姿与视觉感知关联，以锚定任务相关区域。
在多个机器人操作基准测试中实现了更高的成功率、更平滑的轨迹和更快的推理速度，同时保持了在环境变化下的强泛化能力。

Card 04 方法描述

方法描述

提出位姿条件锚点生成方法，生成两种互补的注意力锚点：任务相关锚点和末端执行器锚点，前者标记交互发生的关键区域，后者追踪每个时间步的末端执行器位置。
设计位姿条件锚点损失，由空间注意力损失和批量对比损失组成，用于监督模型关注正确的空间区域并增强跨样本一致性。
使用 Flow Matching Transformer 进行动作序列预测，以高效、平滑的方式生成连续动作块。

Card 05 数据集与资源

数据集与资源

使用 AlphaBot 1s 机器人平台采集的真实世界数据集，针对不同物体，每个物体收集 200条 演示轨迹。
模型训练在单个 NVIDIA A100 GPU 上进行，推理在 NVIDIA RTX 4090 GPU 上进行。
使用 CLIP-Base 作为文本和图像编码器，DINOv2-Base 作为密集视觉骨干网络。

Card 06 评估与结果

评估与结果

在真实世界的抓取任务上进行评估，测试环境包括基础设置、未见背景、未见光照、干扰物体、未见物体等多种条件。
主要评估指标为任务成功率。PosA-VLA 在平均成功率上达到 55.3%，显著高于其他基线模型（如DexGraspVLA的50.5%，π₀的31.6%）。
在长期操作任务（开盖并放入物体）中，PosA-VLA 的整体成功率达到 61.1%，远超其他模型。
效率分析显示，PosA-VLA 训练仅需 20 GPU小时，平均动作推理时间为 24.5ms，总执行步骤最少，总执行时间最短，展现出卓越的效率。