提出了 E-VLA，一种事件增强的视觉-语言-动作框架，旨在解决现有 VLA 模型在极端低光照和运动模糊场景下的感知脆弱性问题。

论文详情

E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes

2026-04-06 · 原文 · 翻译 · 2604.04834

提出了 E-VLA，一种事件增强的视觉-语言-动作框架，旨在解决现有 VLA 模型在极端低光照和运动模糊场景下的感知脆弱性问题。该方法直接利用事件流中的运动和结构线索，而不是从事件重建图像，从而在不利的视觉条件下保持语义感知和感知-动作的一致性。构建了一个开源遥操作平台，收集了真实世界的同步 RGB-事件-动作数据集，验证了事件驱动感知在 VLA 模型中的有效性。

5 分钟读完 6 张阅读卡 Zhejiang University

一眼看懂封面预览

提出了 E-VLA，一种事件增强的视觉-语言-动作框架，旨在解决现有 VLA 模型在极端低光照和运动模糊场景下的感知脆弱性问题。

提出了 E-VLA，一种事件增强的视觉-语言-动作框架，旨在解决现有 VLA 模型在极端低光照和运动模糊场景下的感知脆弱性问题。
该方法直接利用事件流中的运动和结构线索，而不是从事件重建图像，从而在不利的视觉条件下保持语义感知和感知-动作的一致性。
构建了一个开源遥操作平台，收集了真实世界的同步 RGB-事件-动作数据集，验证了事件驱动感知在 VLA 模型中的有效性。

Card 01 研究单位

研究单位

Zhejiang University
Ant Group
Hunan University

Card 02 论文概述

论文概述

提出了 E-VLA，一种事件增强的视觉-语言-动作框架，旨在解决现有 VLA 模型在极端低光照和运动模糊场景下的感知脆弱性问题。
该方法直接利用事件流中的运动和结构线索，而不是从事件重建图像，从而在不利的视觉条件下保持语义感知和感知-动作的一致性。
构建了一个开源遥操作平台，收集了真实世界的同步 RGB-事件-动作数据集，验证了事件驱动感知在 VLA 模型中的有效性。

Card 03 核心贡献

核心贡献

提出了首个整合事件视觉感知的 E-VLA 框架，用于增强机器人在低光照和运动模糊条件下的操作鲁棒性。
构建了开源事件增强遥操作平台，并收集了包含多任务和多种光照条件的真实世界同步 RGB-事件-动作数据集。
设计了轻量级且兼容预训练模型的事件融合策略，包括无参数的叠加融合和分层事件适配器。
提供了系统性的实证证据和设计见解，证明了事件驱动感知可有效集成到可扩展的 VLA 学习中。

Card 04 方法描述

方法描述

基于 SmolVLA 架构作为基线模型，利用事件相机捕获的异步数据增强视觉感知。
设计了基于事件计数而非固定时间间隔的窗口化策略，以适应机器人操作中运动速度变化导致的非平稳时间分布。
提出了两种融合策略：一是参数-free 的 Overlay-based fusion，直接将事件叠加到 RGB 图像上；二是轻量级的 Hierarchical Event Adapter，将事件特征注入到视觉编码器的中间层进行细粒度交互。

Card 05 数据集与资源

数据集与资源

使用了 SO100 6-DoF 机械臂和 DAVIS346 事件相机构建遥操作平台。
自建数据集包含 Pick-Place、Sorting 和 Stacking 三种任务，覆盖正常光照（200 lux）和低光照（100, 75, 40 lux）条件。
数据集包含 724 个演示片段，总计 339310 帧。
训练使用单卡 NVIDIA A800 GPU，推理部署在 NVIDIA AGX Orin 平台上。

Card 06 评估与结果

评估与结果

在真实机器人平台上进行评估，对比了 RetinexNet、Retinexformer、EvLight 和 E2VID 等图像增强或重建基线。
主要评估指标为任务成功率（Task Success Rate）。
在极低光照（20 lux）下，E-VLA (Event Adapter) 的 Pick-Place 任务成功率从基线的 0% 提升至 90%。
在严重运动模糊（1000 ms 曝光）下，Sorting 任务成功率从 5% 提升至 32.5%。
在未见过的低光照场景（OOD）测试中，仅在正常光照训练的模型在 20 lux 下仍保持 45% 的成功率，证明了良好的泛化能力。