返回列表 VLA / Vision-Language-Action 每日论文卡
FocusVLA: Focused Visual Utilization for Vision-Language-Action Models
研究目标:解决自回归视觉-语言-动作(VLA)模型中视觉信息利用效率低下的问题,提升机械臂操作的精准度和鲁棒性

论文详情

FocusVLA: Focused Visual Utilization for Vision-Language-Action Models

2026-03-30 · 原文 · 翻译 · 2603.28740

研究目标:解决自回归视觉-语言-动作(VLA)模型中视觉信息利用效率低下的问题,提升机械臂操作的精准度和鲁棒性 核心问题:识别出三个关键瓶颈——架构偏差(混合注意力产生结构捷径)、信息过载(过多视觉token稀释注意力)、任务无关噪声(背景信息降低信噪比) 解决思路:提出 FocusVLA 范式,通过引导模型关注任务相关的视觉区域,同时抑制无关干扰,从而实现更精确的动作生成

7 分钟读完 6 张阅读卡 哈尔滨工业大学(深圳) (Harbin Institute of Technology, Shenzh…
一眼看懂 封面预览

研究目标:解决自回归视觉-语言-动作(VLA)模型中视觉信息利用效率低下的问题,提升机械臂操作的精准度和鲁棒性

  • 研究目标:解决自回归视觉-语言-动作(VLA)模型中视觉信息利用效率低下的问题,提升机械臂操作的精准度和鲁棒性
  • 核心问题:识别出三个关键瓶颈——架构偏差(混合注意力产生结构捷径)、信息过载(过多视觉token稀释注意力)、任务无关噪声(背景信息降低信噪比)
  • 解决思路:提出 FocusVLA 范式,通过引导模型关注任务相关的视觉区域,同时抑制无关干扰,从而实现更精确的动作生成
Card 01 研究单位

研究单位

  • 哈尔滨工业大学(深圳) (Harbin Institute of Technology, Shenzhen, China)
  • DaiMon Robotics, China
  • 南京大学 (Nanjing University, Nanjing, China)
  • 中国人民大学 (Renmin University of China, Beijing, China)
Card 02 论文概述

论文概述

  • 研究目标:解决自回归视觉-语言-动作(VLA)模型中视觉信息利用效率低下的问题,提升机械臂操作的精准度和鲁棒性
  • 核心问题:识别出三个关键瓶颈——架构偏差(混合注意力产生结构捷径)、信息过载(过多视觉token稀释注意力)、任务无关噪声(背景信息降低信噪比)
  • 解决思路:提出 FocusVLA 范式,通过引导模型关注任务相关的视觉区域,同时抑制无关干扰,从而实现更精确的动作生成
Card 03 核心贡献

核心贡献

  • 识别并验证了自回归策略中视觉利用的三个基础瓶颈,揭示性能主要受限于视觉信息的利用方式而非表示质量本身
  • 提出 Modality Cascaded Attention(模态级联注意力):消除策略网络中的结构偏差,使动作能够独立检索任务相关的视觉信息,将注意力模式从分散转变为聚焦
  • 提出 Focus Attention(聚焦注意力):双层机制,包括 Patch-level Focus(裁剪冗余视觉块)和 Channel-level Focus(抑制背景噪声),为精准操作提供更丰富、任务相关的视觉细节
  • 在模拟和真实机器人基准上实现 state-of-the-art 性能,显著提升训练收敛速度(1.5× 整体加速, 在 LIBERO-Spatial 上)
Card 04 方法描述

方法描述

  • Modality Cascaded Attention:将混合注意力替换为级联设计,使动作潜在向量依次整合各模态信息,而非在共享注意力分布中混合所有模态,从而消除结构捷径,强制模型关注任务相关区域
  • Patch-level Focus:基于跨注意力分数选择 Top-K 任务相关视觉token,屏蔽其他token;同时使用浅层VLM特征($C^V_0$)作为值、深层特征($C^V_t$)作为键,提取细粒度空间细节
  • Channel-level Focus:采用元素级门控(element-wise gate)替代单参数门控,自适应抑制噪声通道,增强模型的指令跟随能力
  • 结合 VLM 语义感知与 DINOv2+SigLIP 空间保真度,创建互补协同效应
Card 05 数据集与资源

数据集与资源

  • 数据集:LIBERO(4个子集:Spatial, Object, Goal, Long)、RoboTwin 2.0(Easy/Hard设置)
  • 视觉骨干:DINOv2 + SigLIP(DS)、PrismaticVLM(Qwen2.5-0.5B)、VGGT
  • 模型规模:策略模块 0.5B 参数,总可训练参数约 342.7M(VLM: 103.6M + Policy: 239.1M)
  • 训练资源:4-8 张 NVIDIA A100 GPU,batch size 64,LIBERO 单任务训练 10k-80k 步,RoboTwin 训练 20k-100k 步
Card 06 评估与结果

评估与结果

  • 评估基准:LIBERO(500次试验/任务)和 RoboTwin(100-300次试验/任务),真实机器人实验(Realman平台,25次试验/变体)
  • 主要指标:Success Rate (SR%)
  • 关键结果

- LIBERO 多权重设置:平均成功率 98.7%,超越 7B 规模的 OpenVLA-OFT 和 Spatial Forcing

- LIBERO 单权重设置:平均成功率 97.0%,显著优于 VLA-Adapter(95.6%)和 EVO-1(94.8%)

- RoboTwin:在精细操作任务(如 Hugging Mug)显著优于基线模型

- 训练效率:平均 1.5× 加速,LIBERO-Spatial 上 加速(5k vs 25k 步)

- 真实机器人实验:在抓取、叠杯、放置任务中均取得更高成功率,展示对背景变化、空间变化和目标变化的有效泛化