ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

一眼看懂封面预览

论文提出 ReconVLA（Reconstructive Vision-Language-Action Model），一种基于隐式视觉定位（I…

Card 01 研究单位

研究单位

论文作者来自多个研究机构，包括 Wenxuan Song、Ziyang Zhou、Jiayi Chen、Haodong Yan、Yuxin Huang、Haoang Li（第一单位，推测为 Zhejiang University 或相关机构）
Han Zhao、Pengxiang Ding、Donglin Wang（第二、三单位，推测为 Westlake University 或相关机构）
Feilong Tang（第四单位）

Card 02 论文概述

论文提出 ReconVLA（Reconstructive Vision-Language-Action Model），一种基于隐式视觉定位（Implicit Grounding）的机器人感知模型
针对现有 VLA 模型视觉注意力分散、无法精准聚焦目标区域的问题，通过引入 gaze region（凝视区域）重建机制，引导模型学习细粒度视觉表征
核心目标：提升机器人在复杂环境和长程任务中的精准操作能力和泛化能力

Card 03 核心贡献

提出 ReconVLA 框架，首创隐式视觉定位范式，通过重建目标操作区域（gaze region）实现精准视觉注意力分配
构建大规模预训练数据集，包含 100k+ 轨迹、200万+ 样本，融合 BridgeData V2、LIBERO、CALVIN 等开源机器人数据
设计轻量级扩散 Transformer（Diffusion Transformer）作为视觉重建模块，以 VLA 视觉输出为条件重建 gaze region 的潜层表征
在仿真环境（CALVIN）和真实世界多任务实验中验证，实现精确操作和对未见目标的泛化能力
相比显式定位（EG）和思维链定位（CG）范式，隐式定位在成功率上分别提升 13.9% 和 64.1%（5/5 子任务）

Card 04 方法描述

架构基础：基于 LLaVA-7B（Qwen2-7B 作为 LLM 主干，SigLIP-SO400M 作为视觉编码器）
双任务训练目标：动作预测损失 + 视觉重建损失，即 L_ReconVLA = L_VLA^action + L_VLA^visual
潜层视觉重建：使用冻结的 VAE 视觉分词器将 gaze region 编码为场景 token z_0，通过扩散去噪过程从噪声 z_t 中恢复，条件为 VLA 输出的重建 token h_R
关键设计：指令 token 前置，使图像 token 通过因果注意力融合文本信息；采用 DiT（Diffusion Transformer） 作为去噪器
预训练策略：在大规模混合数据上联合优化重建损失和动作损失，增强视觉生成泛化能力

Card 05 数据集与资源

预训练数据：BridgeData V2、LIBERO、CALVIN，经 Grounding DINO 自动处理生成图像对（完整图像 + gaze region 裁剪）
数据规模：100,000+ 轨迹，2,000,000+ 样本
模型规模：基于 7B 参数的 VLM 主干
训练资源：未明确说明具体 GPU/TPU 配置

Card 06 评估与结果

仿真环境：CALVIN 基准（基于 PyBullet），测试长程任务（5 个子任务序列），评估 ABC→D（跨环境泛化）和 ABCD→D（标准设置）
评估指标：各子任务成功率（1/5 至 5/5）和平均完成长度（Avg. Len）
关键结果：

- CALVIN ABC→D：5/5 成功率 64.1%，平均长度 3.95，超越 UniVLA（56.5%）、OpenVLA（43.5%）、GR-1（40.1%）等 SOTA 方法

- CALVIN ABCD→D：5/5 成功率 70.5%，平均长度 4.23，超越 GR-1（73.1%→70.5% 为相对提升，实际 70.5% 为最优）

- 范式对比：隐式定位（IG）vs 显式定位（EG）vs 思维链定位（CG），IG 全面最优，CG 因坐标输出困难而失效

- 消融实验：预训练提升 5.9% 平均长度，gaze region 重建比全图重建更优

- 真实世界：6-DoF AgileX PiPer 机械臂，4 项任务（叠碗、放水果、翻杯、清理桌面）及 2 项未见任务，成功率接近或超过 90%，对未见目标仍保持有效 grounding