返回列表 VLA / Vision-Language-Action 每日论文卡
E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes
提出了 E-VLA,一种事件增强的视觉-语言-动作框架,旨在解决现有 VLA 模型在极端低光照和运动模糊场景下的感知脆弱性问题。

论文详情

E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes

2026-04-06 · 原文 · 翻译 · 2604.04834

提出了 E-VLA,一种事件增强的视觉-语言-动作框架,旨在解决现有 VLA 模型在极端低光照和运动模糊场景下的感知脆弱性问题。 该方法直接利用事件流中的运动和结构线索,而不是从事件重建图像,从而在不利的视觉条件下保持语义感知和感知-动作的一致性。 构建了一个开源遥操作平台,收集了真实世界的同步 RGB-事件-动作数据集,验证了事件驱动感知在 VLA 模型中的有效性。

5 分钟读完 6 张阅读卡 Zhejiang University
一眼看懂 封面预览

提出了 E-VLA,一种事件增强的视觉-语言-动作框架,旨在解决现有 VLA 模型在极端低光照和运动模糊场景下的感知脆弱性问题。

  • 提出了 E-VLA,一种事件增强的视觉-语言-动作框架,旨在解决现有 VLA 模型在极端低光照和运动模糊场景下的感知脆弱性问题。
  • 该方法直接利用事件流中的运动和结构线索,而不是从事件重建图像,从而在不利的视觉条件下保持语义感知和感知-动作的一致性。
  • 构建了一个开源遥操作平台,收集了真实世界的同步 RGB-事件-动作数据集,验证了事件驱动感知在 VLA 模型中的有效性。
Card 01 研究单位

研究单位

  • Zhejiang University
  • Ant Group
  • Hunan University
Card 02 论文概述

论文概述

  • 提出了 E-VLA,一种事件增强的视觉-语言-动作框架,旨在解决现有 VLA 模型在极端低光照和运动模糊场景下的感知脆弱性问题。
  • 该方法直接利用事件流中的运动和结构线索,而不是从事件重建图像,从而在不利的视觉条件下保持语义感知和感知-动作的一致性。
  • 构建了一个开源遥操作平台,收集了真实世界的同步 RGB-事件-动作数据集,验证了事件驱动感知在 VLA 模型中的有效性。
Card 03 核心贡献

核心贡献

  • 提出了首个整合事件视觉感知的 E-VLA 框架,用于增强机器人在低光照和运动模糊条件下的操作鲁棒性。
  • 构建了开源事件增强遥操作平台,并收集了包含多任务和多种光照条件的真实世界同步 RGB-事件-动作数据集。
  • 设计了轻量级且兼容预训练模型的事件融合策略,包括无参数的叠加融合和分层事件适配器。
  • 提供了系统性的实证证据和设计见解,证明了事件驱动感知可有效集成到可扩展的 VLA 学习中。
Card 04 方法描述

方法描述

  • 基于 SmolVLA 架构作为基线模型,利用事件相机捕获的异步数据增强视觉感知。
  • 设计了基于事件计数而非固定时间间隔的窗口化策略,以适应机器人操作中运动速度变化导致的非平稳时间分布。
  • 提出了两种融合策略:一是参数-free 的 Overlay-based fusion,直接将事件叠加到 RGB 图像上;二是轻量级的 Hierarchical Event Adapter,将事件特征注入到视觉编码器的中间层进行细粒度交互。
Card 05 数据集与资源

数据集与资源

  • 使用了 SO100 6-DoF 机械臂和 DAVIS346 事件相机构建遥操作平台。
  • 自建数据集包含 Pick-PlaceSortingStacking 三种任务,覆盖正常光照(200 lux)和低光照(100, 75, 40 lux)条件。
  • 数据集包含 724 个演示片段,总计 339310 帧。
  • 训练使用单卡 NVIDIA A800 GPU,推理部署在 NVIDIA AGX Orin 平台上。
Card 06 评估与结果

评估与结果

  • 在真实机器人平台上进行评估,对比了 RetinexNet、Retinexformer、EvLight 和 E2VID 等图像增强或重建基线。
  • 主要评估指标为任务成功率(Task Success Rate)。
  • 在极低光照(20 lux)下,E-VLA (Event Adapter) 的 Pick-Place 任务成功率从基线的 0% 提升至 90%。
  • 在严重运动模糊(1000 ms 曝光)下,Sorting 任务成功率从 5% 提升至 32.5%。
  • 在未见过的低光照场景(OOD)测试中,仅在正常光照训练的模型在 20 lux 下仍保持 45% 的成功率,证明了良好的泛化能力。