返回列表 VLA / Vision-Language-Action 每日论文卡
Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception
论文提出 EyeVLA,一个用于主动视觉感知的机器人眼球系统,能够根据指令主动执行旋转和变焦动作,在宽空间范围内清晰观察细粒度目标物体。

论文详情

Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception

2025-11-19 · 原文 · 翻译 · 2511.15279

论文提出 EyeVLA,一个用于主动视觉感知的机器人眼球系统,能够根据指令主动执行旋转和变焦动作,在宽空间范围内清晰观察细粒度目标物体。 旨在解决现有视觉模型和固定RGB-D相机系统无法兼顾大范围覆盖与细粒度细节获取的问题。 将动作行为离散化为动作标记,并与视觉语言模型集成,在单个自回归序列中联合建模视觉、语言和动作。

4 分钟读完 6 张阅读卡 上海交通大学 人工智能学院
一眼看懂 封面预览

论文提出 EyeVLA,一个用于主动视觉感知的机器人眼球系统,能够根据指令主动执行旋转和变焦动作,在宽空间范围内清晰观察细粒度目标物体。

  • 论文提出 EyeVLA,一个用于主动视觉感知的机器人眼球系统,能够根据指令主动执行旋转和变焦动作,在宽空间范围内清晰观察细粒度目标物体。
  • 旨在解决现有视觉模型和固定RGB-D相机系统无法兼顾大范围覆盖与细粒度细节获取的问题。
  • 将动作行为离散化为动作标记,并与视觉语言模型集成,在单个自回归序列中联合建模视觉、语言和动作。
Card 01 研究单位

研究单位

  • 上海交通大学 人工智能学院
  • 中国科学院自动化研究所
  • 大连理工大学
Card 02 论文概述

论文概述

  • 论文提出 EyeVLA,一个用于主动视觉感知的机器人眼球系统,能够根据指令主动执行旋转和变焦动作,在宽空间范围内清晰观察细粒度目标物体。
  • 旨在解决现有视觉模型和固定RGB-D相机系统无法兼顾大范围覆盖与细粒度细节获取的问题。
  • 将动作行为离散化为动作标记,并与视觉语言模型集成,在单个自回归序列中联合建模视觉、语言和动作。
Card 03 核心贡献

核心贡献

  • 将摄像机运动与变焦控制形式化为一个离散的、标记化的决策过程,无缝集成并联合优化多模态推理。
  • 引入平移/倾斜/变焦调整的层次化离散化方法,并将其嵌入VLM词汇表中,无需单独的控制头即可实现图像、语言和动作的统一自回归建模。
  • 利用2D区域(边界框)信号作为推理链中的结构指导和奖励塑造元素,通过强化学习将开放世界语义转化为细粒度主动控制。
  • 展示了一种数据高效流程,仅使用500个真实世界样本和伪标签扩展,即可学习可执行策略并在开放世界场景中实现零样本能力。
Card 04 方法描述

方法描述

  • 基于 Qwen2.5-VL 框架构建系统,集成视觉感知、语言理解和动作生成能力。
  • 提出分层动作编码方案,使用基数集 {5, 2, 1} 将连续摄像机动作转化为离散动作标记,优化标记效率。
  • 采用两阶段训练策略:第一阶段为带有伪标签的监督对齐;第二阶段通过强化学习进行策略细化,使用 GRPO 算法优化策略。
  • 利用合成数据生成器扩展数据集,通过IoU阈值筛选高质量伪标签样本。
Card 05 数据集与资源

数据集与资源

  • 使用自建机器人眼球系统采集的 500个真实世界数据样本
  • Rexverse-2M 数据集中抽取 50,000张 小目标图像用于合成数据生成。
  • 基础模型为 Qwen2.5-VL-7B-Instruct,参数量约 7B
  • 训练过程采用两阶段策略,包括监督微调和强化学习。
Card 06 评估与结果

评估与结果

  • 在真实世界环境中评估,主要指标为平均绝对误差(MAE)和任务完成率(CR)。
  • 最佳模型(RL3)在测试集上达到 θ₁ MAE: 2.04°θ₂ MAE: 1.68°Zoom MAE: 65.37
  • 在真实世界场景测试中,任务完成率达到 96%
  • 消融实验证明,引入边界框指导和IoU筛选策略、使用强化学习均显著提升了模型性能。