论文提出了LaMP，一个双专家的Vision-Language-Action (VLA) 框架，该框架将密集3D场景流作为潜在运动先验嵌入到机…

论文详情

LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior

2026-03-26 · 原文 · 翻译 · 2603.25399

论文提出了LaMP，一个双专家的Vision-Language-Action (VLA) 框架，该框架将密集3D场景流作为潜在运动先验嵌入到机器人操作中。论文旨在解决现有VLA模型直接从2D语义视觉特征回归动作，导致必须隐式学习复杂3D物理交互，并在不熟悉空间动态下表现不佳的问题。 LaMP通过门控交叉注意力将流匹配的Motion Expert与策略预测的Action Expert对齐，使用一步部分去噪的3D场景…

5 分钟读完 6 张阅读卡东南大学、上海交通大学人工智能学院、浙江大学、北京航空航天大学、上海创新研究院

一眼看懂封面预览

论文提出了LaMP，一个双专家的Vision-Language-Action (VLA) 框架，该框架将密集3D场景流作为潜在运动先验嵌入到机…

论文提出了LaMP，一个双专家的Vision-Language-Action (VLA) 框架，该框架将密集3D场景流作为潜在运动先验嵌入到机…
论文旨在解决现有VLA模型直接从2D语义视觉特征回归动作，导致必须隐式学习复杂3D物理交互，并在不熟悉空间动态下表现不佳的问题。
LaMP通过门控交叉注意力将流匹配的Motion Expert与策略预测的Action Expert对齐，使用一步部分去噪的3D场景流作为条件…

Card 01 研究单位

研究单位

东南大学、上海交通大学人工智能学院、浙江大学、北京航空航天大学、上海创新研究院

Card 02 论文概述

论文概述

论文提出了LaMP，一个双专家的Vision-Language-Action (VLA) 框架，该框架将密集3D场景流作为潜在运动先验嵌入到机器人操作中。
论文旨在解决现有VLA模型直接从2D语义视觉特征回归动作，导致必须隐式学习复杂3D物理交互，并在不熟悉空间动态下表现不佳的问题。
LaMP通过门控交叉注意力将流匹配的Motion Expert与策略预测的Action Expert对齐，使用一步部分去噪的3D场景流作为条件，避免了全多步重建的计算开销。

Card 03 核心贡献

核心贡献

提出了LaMP双专家VLA框架，利用密集3D场景流作为潜在运动先验，弥合了2D语义VLM特征与3D物理动态之间的差距。
引入了门控运动指导机制，通过门控交叉注意力提取部分去噪的运动状态并自适应地将几何线索注入VLM表示，防止表示坍塌并保持计算效率。
在LIBERO、LIBERO-Plus、SimplerEnv-WidowX基准测试及真实世界实验中，LaMP持续优于现有VLA基线，取得了最高的平均成功率。

Card 04 方法描述

方法描述

LaMP框架包含两个核心专家：Motion Expert 采用条件流匹配学习预测3D场景流，作为隐式运动先验；Action Expert 基于运动指导和视觉语言特征预测机器人动作。
创新点在于使用一步部分去噪（从τ=0到τ=0.1）的中间隐藏状态作为运动指导特征，并通过门控交叉注意力机制与VLM特征融合，门控参数从零开始初始化，实现自适应的运动信息注入。
采用两阶段训练：阶段一预训练Motion Expert；阶段二冻结Motion Expert和VLM骨干，训练Action Expert和运动指导模块。

Card 05 数据集与资源

数据集与资源

使用的数据集包括LIBERO、BridgeV2、DROID、InternData-A1，通过TraceForge流程构建了160万 观测-语言-运动三元组。
模型基于Qwen3-VL-4B-Instruct作为骨干网络，Motion Expert采用CogVideoX风格的3D Transformer。
训练资源为16块 NVIDIA H100 GPU，推理在配备RTX 4090 GPU的工作站上进行。

Card 06 评估与结果

评估与结果

评估环境包括LIBERO（四个标准套件）、LIBERO-Plus（七个OOD扰动维度）和SimplerEnv-WidowX仿真基准，以及真实世界机器人平台。
主要评估指标为任务成功率 和 平均成功率。
关键结果：在LIBERO上平均成功率达98.3%，在LIBERO-Long上达96.7%；在LIBERO-Plus零样本OOD评估中平均成功率达79.3%，比最强基线高9.7%；在SimplerEnv-WidowX上平均成功率达79.2%；真实世界实验中在所有任务类别上都优于π₀ 和 3D FDP 基线。