一眼看懂
封面预览
论文提出 ReconVLA(Reconstructive Vision-Language-Action Model),一种基于隐式视觉定位(I…
- 论文提出 ReconVLA(Reconstructive Vision-Language-Action Model),一种基于隐式视觉定位(I…
- 针对现有 VLA 模型视觉注意力分散、无法精准聚焦目标区域的问题,通过引入 gaze region(凝视区域)重建机制,引导模型学习细粒度视觉…
- 核心目标:提升机器人在复杂环境和长程任务中的精准操作能力和泛化能力
Card 01
研究单位
研究单位
- 论文作者来自多个研究机构,包括 Wenxuan Song、Ziyang Zhou、Jiayi Chen、Haodong Yan、Yuxin Huang、Haoang Li(第一单位,推测为 Zhejiang University 或相关机构)
- Han Zhao、Pengxiang Ding、Donglin Wang(第二、三单位,推测为 Westlake University 或相关机构)
- Feilong Tang(第四单位)
Card 02
论文概述
论文概述
- 论文提出 ReconVLA(Reconstructive Vision-Language-Action Model),一种基于隐式视觉定位(Implicit Grounding)的机器人感知模型
- 针对现有 VLA 模型视觉注意力分散、无法精准聚焦目标区域的问题,通过引入 gaze region(凝视区域)重建机制,引导模型学习细粒度视觉表征
- 核心目标:提升机器人在复杂环境和长程任务中的精准操作能力和泛化能力
Card 03
核心贡献
核心贡献
- 提出 ReconVLA 框架,首创隐式视觉定位范式,通过重建目标操作区域(gaze region)实现精准视觉注意力分配
- 构建大规模预训练数据集,包含 100k+ 轨迹、200万+ 样本,融合 BridgeData V2、LIBERO、CALVIN 等开源机器人数据
- 设计轻量级扩散 Transformer(Diffusion Transformer)作为视觉重建模块,以 VLA 视觉输出为条件重建 gaze region 的潜层表征
- 在仿真环境(CALVIN)和真实世界多任务实验中验证,实现精确操作和对未见目标的泛化能力
- 相比显式定位(EG)和思维链定位(CG)范式,隐式定位在成功率上分别提升 13.9% 和 64.1%(5/5 子任务)
Card 04
方法描述
方法描述
- 架构基础:基于 LLaVA-7B(Qwen2-7B 作为 LLM 主干,SigLIP-SO400M 作为视觉编码器)
- 双任务训练目标:动作预测损失 + 视觉重建损失,即 L_ReconVLA = L_VLA^action + L_VLA^visual
- 潜层视觉重建:使用冻结的 VAE 视觉分词器将 gaze region 编码为场景 token z_0,通过扩散去噪过程从噪声 z_t 中恢复,条件为 VLA 输出的重建 token h_R
- 关键设计:指令 token 前置,使图像 token 通过因果注意力融合文本信息;采用 DiT(Diffusion Transformer) 作为去噪器
- 预训练策略:在大规模混合数据上联合优化重建损失和动作损失,增强视觉生成泛化能力
Card 05
数据集与资源
数据集与资源
- 预训练数据:BridgeData V2、LIBERO、CALVIN,经 Grounding DINO 自动处理生成图像对(完整图像 + gaze region 裁剪)
- 数据规模:100,000+ 轨迹,2,000,000+ 样本
- 模型规模:基于 7B 参数的 VLM 主干
- 训练资源:未明确说明具体 GPU/TPU 配置
Card 06
评估与结果
评估与结果
- 仿真环境:CALVIN 基准(基于 PyBullet),测试长程任务(5 个子任务序列),评估 ABC→D(跨环境泛化)和 ABCD→D(标准设置)
- 评估指标:各子任务成功率(1/5 至 5/5)和平均完成长度(Avg. Len)
- 关键结果:
- CALVIN ABC→D:5/5 成功率 64.1%,平均长度 3.95,超越 UniVLA(56.5%)、OpenVLA(43.5%)、GR-1(40.1%)等 SOTA 方法
- CALVIN ABCD→D:5/5 成功率 70.5%,平均长度 4.23,超越 GR-1(73.1%→70.5% 为相对提升,实际 70.5% 为最优)
- 范式对比:隐式定位(IG)vs 显式定位(EG)vs 思维链定位(CG),IG 全面最优,CG 因坐标输出困难而失效
- 消融实验:预训练提升 5.9% 平均长度,gaze region 重建比全图重建更优
- 真实世界:6-DoF AgileX PiPer 机械臂,4 项任务(叠碗、放水果、翻杯、清理桌面)及 2 项未见任务,成功率接近或超过 90%,对未见目标仍保持有效 grounding