返回列表 VLA / Vision-Language-Action 每日论文卡

ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

论文详情

ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

2025-08-14 · 原文 · 翻译 · 2508.10333

论文提出 ReconVLA(Reconstructive Vision-Language-Action Model),一种基于隐式视觉定位(Implicit Grounding)的机器人感知模型 针对现有 VLA 模型视觉注意力分散、无法精准聚焦目标区域的问题,通过引入 gaze region(凝视区域)重建机制,引导模型学习细粒度视觉表征 核心目标:提升机器人在复杂环境和长程任务中的精准操作能力和泛化能力

7 分钟读完 6 张阅读卡 论文作者来自多个研究机构,包括 Wenxuan Song、Ziyang Zhou、Jiayi Chen…
一眼看懂 封面预览

论文提出 ReconVLA(Reconstructive Vision-Language-Action Model),一种基于隐式视觉定位(I…

  • 论文提出 ReconVLA(Reconstructive Vision-Language-Action Model),一种基于隐式视觉定位(I…
  • 针对现有 VLA 模型视觉注意力分散、无法精准聚焦目标区域的问题,通过引入 gaze region(凝视区域)重建机制,引导模型学习细粒度视觉…
  • 核心目标:提升机器人在复杂环境和长程任务中的精准操作能力和泛化能力
Card 01 研究单位

研究单位

  • 论文作者来自多个研究机构,包括 Wenxuan SongZiyang ZhouJiayi ChenHaodong YanYuxin HuangHaoang Li(第一单位,推测为 Zhejiang University 或相关机构)
  • Han ZhaoPengxiang DingDonglin Wang(第二、三单位,推测为 Westlake University 或相关机构)
  • Feilong Tang(第四单位)
Card 02 论文概述

论文概述

  • 论文提出 ReconVLA(Reconstructive Vision-Language-Action Model),一种基于隐式视觉定位(Implicit Grounding)的机器人感知模型
  • 针对现有 VLA 模型视觉注意力分散、无法精准聚焦目标区域的问题,通过引入 gaze region(凝视区域)重建机制,引导模型学习细粒度视觉表征
  • 核心目标:提升机器人在复杂环境和长程任务中的精准操作能力泛化能力
Card 03 核心贡献

核心贡献

  • 提出 ReconVLA 框架,首创隐式视觉定位范式,通过重建目标操作区域(gaze region)实现精准视觉注意力分配
  • 构建大规模预训练数据集,包含 100k+ 轨迹、200万+ 样本,融合 BridgeData V2LIBEROCALVIN 等开源机器人数据
  • 设计轻量级扩散 Transformer(Diffusion Transformer)作为视觉重建模块,以 VLA 视觉输出为条件重建 gaze region 的潜层表征
  • 在仿真环境(CALVIN)和真实世界多任务实验中验证,实现精确操作对未见目标的泛化能力
  • 相比显式定位(EG)和思维链定位(CG)范式,隐式定位在成功率上分别提升 13.9%64.1%(5/5 子任务)
Card 04 方法描述

方法描述

  • 架构基础:基于 LLaVA-7BQwen2-7B 作为 LLM 主干,SigLIP-SO400M 作为视觉编码器)
  • 双任务训练目标:动作预测损失 + 视觉重建损失,即 L_ReconVLA = L_VLA^action + L_VLA^visual
  • 潜层视觉重建:使用冻结的 VAE 视觉分词器将 gaze region 编码为场景 token z_0,通过扩散去噪过程从噪声 z_t 中恢复,条件为 VLA 输出的重建 token h_R
  • 关键设计:指令 token 前置,使图像 token 通过因果注意力融合文本信息;采用 DiT(Diffusion Transformer) 作为去噪器
  • 预训练策略:在大规模混合数据上联合优化重建损失和动作损失,增强视觉生成泛化能力
Card 05 数据集与资源

数据集与资源

  • 预训练数据BridgeData V2LIBEROCALVIN,经 Grounding DINO 自动处理生成图像对(完整图像 + gaze region 裁剪)
  • 数据规模100,000+ 轨迹2,000,000+ 样本
  • 模型规模:基于 7B 参数的 VLM 主干
  • 训练资源:未明确说明具体 GPU/TPU 配置
Card 06 评估与结果

评估与结果

  • 仿真环境CALVIN 基准(基于 PyBullet),测试长程任务(5 个子任务序列),评估 ABC→D(跨环境泛化)和 ABCD→D(标准设置)
  • 评估指标:各子任务成功率(1/5 至 5/5)和平均完成长度(Avg. Len)
  • 关键结果

- CALVIN ABC→D:5/5 成功率 64.1%,平均长度 3.95,超越 UniVLA(56.5%)、OpenVLA(43.5%)、GR-1(40.1%)等 SOTA 方法

- CALVIN ABCD→D:5/5 成功率 70.5%,平均长度 4.23,超越 GR-1(73.1%→70.5% 为相对提升,实际 70.5% 为最优)

- 范式对比:隐式定位(IG)vs 显式定位(EG)vs 思维链定位(CG),IG 全面最优,CG 因坐标输出困难而失效

- 消融实验:预训练提升 5.9% 平均长度,gaze region 重建比全图重建更优

- 真实世界:6-DoF AgileX PiPer 机械臂,4 项任务(叠碗、放水果、翻杯、清理桌面)及 2 项未见任务,成功率接近或超过 90%,对未见目标仍保持有效 grounding