提出 LoLA（Long Horizon Latent Action Learning），一个用于长时程机器人操作的视觉-语言-动作（VLA）…

论文详情

LoLA: Long Horizon Latent Action Learning for General Robot Manipulation

2025-12-23 · 原文 · 翻译 · 2512.20166

提出 LoLA（Long Horizon Latent Action Learning），一个用于长时程机器人操作的视觉-语言-动作（VLA）框架解决现有 VLA 模型在长时程任务中忽视历史信息、缺乏时间连贯性的问题核心挑战包括：时间上下文理解、分布外状态累积、长序列计算开销

5 分钟读完 6 张阅读卡 Institute of Microelectronics, Chinese Academy of S…

一眼看懂封面预览

提出 LoLA（Long Horizon Latent Action Learning），一个用于长时程机器人操作的视觉-语言-动作（VLA）…

提出 LoLA（Long Horizon Latent Action Learning），一个用于长时程机器人操作的视觉-语言-动作（VLA）…
解决现有 VLA 模型在长时程任务中忽视历史信息、缺乏时间连贯性的问题
核心挑战包括：时间上下文理解、分布外状态累积、长序列计算开销

Card 01 研究单位

研究单位

Institute of Microelectronics, Chinese Academy of Sciences
University of Chinese Academy of Sciences
Microsoft Research

Card 02 论文概述

论文概述

提出 LoLA（Long Horizon Latent Action Learning），一个用于长时程机器人操作的视觉-语言-动作（VLA）框架
解决现有 VLA 模型在长时程任务中忽视历史信息、缺乏时间连贯性的问题
核心挑战包括：时间上下文理解、分布外状态累积、长序列计算开销

Card 03 核心贡献

核心贡献

提出 State-Aware Latent Re-representation (SALR) 模块，将视觉-语言嵌入显式锚定到机器人本体感知空间
设计选择性时空采样策略，平衡高保真当前观测与下采样历史运动编码
引入可学习掩码操作，抑制动作无关噪声，提取关键动作信号
在模拟基准（SIMPLER、LIBERO）和真实机器人（Franka、Bi-Manual Aloha）上验证有效性
在长时程任务上显著超越现有 SOTA 方法（如 π₀）

Card 04 方法描述

方法描述

视觉编码：使用预训练 VLM（Qwen2.5-VL）处理多视角图像，包括高分辨率当前观测编码和下采样历史运动编码
SALR 模块：通过 State Transformer 与 VLM 并行运行，利用外积融合将机器人状态查询与 VLM 的 Key-Value 缓存进行状态感知的多plicative 融合
动作专家：基于条件流匹配（CFM）的 Transformer 解码器，从 SALR 输出的对齐表征生成多步动作序列
采用 25 帧历史信息作为默认配置

Card 05 数据集与资源

数据集与资源

预训练数据：OXE 数据集和 AgiBot 数据集，共 110 万真实机器人片段（约 6200 万时间步）
真实世界数据：28 个 Franka 长时程任务（含 22 个原子子任务和 6 个端到端任务，平均时长 2.3 分钟），以及 BusyBox Bi-Manual Aloha 数据集
训练资源：32 张 NVIDIA A100 GPU，批次大小 1280

Card 06 评估与结果

评估与结果

SIMPLER 基准：在 Google Robot 上平均成功率 61.5%（Visual Matching）和 54.6%（Variant Aggregation），在 WidowX Robot 上达 71.9%，相对 π₀ 提升 20.6%
LIBERO 基准：平均成功率 96.2%，在长时程 LIBERO-Long 任务上达 88.2%，超越 π₀（92.2% / 85.4%）
真实世界 Franka：单步任务平均成功率 46.1%，多步长时程任务成功率最高达 33.1%（相对 π₀ 提升 2.67 倍）
Bi-Manual Aloha：平均成功率 46.7%，显著优于 π₀（30.0%）和 Diffusion Policy（8.3%）
消融实验：验证历史帧（MF）和 SALR 模块的关键作用，使用机器人状态信息可将平均成功率从 84.7% 提升至 91.2%