FocusVLA: Focused Visual Utilization for Vision-Language-Action Models - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

研究目标：解决自回归视觉-语言-动作（VLA）模型中视觉信息利用效率低下的问题，提升机械臂操作的精准度和鲁棒性

Card 01 研究单位

研究单位

Card 02 论文概述

研究目标：解决自回归视觉-语言-动作（VLA）模型中视觉信息利用效率低下的问题，提升机械臂操作的精准度和鲁棒性
核心问题：识别出三个关键瓶颈——架构偏差（混合注意力产生结构捷径）、信息过载（过多视觉token稀释注意力）、任务无关噪声（背景信息降低信噪比）
解决思路：提出 FocusVLA 范式，通过引导模型关注任务相关的视觉区域，同时抑制无关干扰，从而实现更精确的动作生成

Card 03 核心贡献

识别并验证了自回归策略中视觉利用的三个基础瓶颈，揭示性能主要受限于视觉信息的利用方式而非表示质量本身
提出 Modality Cascaded Attention（模态级联注意力）：消除策略网络中的结构偏差，使动作能够独立检索任务相关的视觉信息，将注意力模式从分散转变为聚焦
提出 Focus Attention（聚焦注意力）：双层机制，包括 Patch-level Focus（裁剪冗余视觉块）和 Channel-level Focus（抑制背景噪声），为精准操作提供更丰富、任务相关的视觉细节
在模拟和真实机器人基准上实现 state-of-the-art 性能，显著提升训练收敛速度（1.5× 整体加速，5× 在 LIBERO-Spatial 上）

Card 04 方法描述

Modality Cascaded Attention：将混合注意力替换为级联设计，使动作潜在向量依次整合各模态信息，而非在共享注意力分布中混合所有模态，从而消除结构捷径，强制模型关注任务相关区域
Patch-level Focus：基于跨注意力分数选择 Top-K 任务相关视觉token，屏蔽其他token；同时使用浅层VLM特征（$C^V_0$）作为值、深层特征（$C^V_t$）作为键，提取细粒度空间细节
Channel-level Focus：采用元素级门控（element-wise gate）替代单参数门控，自适应抑制噪声通道，增强模型的指令跟随能力
结合 VLM 语义感知与 DINOv2+SigLIP 空间保真度，创建互补协同效应

Card 05 数据集与资源

数据集：LIBERO（4个子集：Spatial, Object, Goal, Long）、RoboTwin 2.0（Easy/Hard设置）
视觉骨干：DINOv2 + SigLIP（DS）、PrismaticVLM（Qwen2.5-0.5B）、VGGT
模型规模：策略模块 0.5B 参数，总可训练参数约 342.7M（VLM: 103.6M + Policy: 239.1M）
训练资源：4-8 张 NVIDIA A100 GPU，batch size 64，LIBERO 单任务训练 10k-80k 步，RoboTwin 训练 20k-100k 步

Card 06 评估与结果

- LIBERO 多权重设置：平均成功率 98.7%，超越 7B 规模的 OpenVLA-OFT 和 Spatial Forcing

- LIBERO 单权重设置：平均成功率 97.0%，显著优于 VLA-Adapter（95.6%）和 EVO-1（94.8%）

- RoboTwin：在精细操作任务（如 Hugging Mug）显著优于基线模型

- 训练效率：平均 1.5× 加速，LIBERO-Spatial 上 5× 加速（5k vs 25k 步）

- 真实机器人实验：在抓取、叠杯、放置任务中均取得更高成功率，展示对背景变化、空间变化和目标变化的有效泛化