提出 NeuroVLA（神经形态视觉-语言-动作）框架，首次将神经形态VLA部署到实体机器人上，实现最先进性能

论文详情

A Brain-inspired Embodied Intelligence for Fluid and Fast Reflexive Robotics Control

2026-01-21 · 原文 · 翻译 · 2601.14628

提出 NeuroVLA（神经形态视觉-语言-动作）框架，首次将神经形态VLA部署到实体机器人上，实现最先进性能借鉴生物运动神经系统的层级分工结构：皮层负责语义规划，小脑负责高频本体感觉调制，脊髓负责快速执行无需额外数据或特殊指导即可涌现出生物运动特性：消除机械臂抖动、显著节能（神经形态处理器仅0.4W）、具有时间记忆能力、触发安全反射仅需20毫秒以内

4 分钟读完 6 张阅读卡香港科技大学（广州）人工智能学域，中国广州

一眼看懂封面预览

提出 NeuroVLA（神经形态视觉-语言-动作）框架，首次将神经形态VLA部署到实体机器人上，实现最先进性能

提出 NeuroVLA（神经形态视觉-语言-动作）框架，首次将神经形态VLA部署到实体机器人上，实现最先进性能
借鉴生物运动神经系统的层级分工结构：皮层负责语义规划，小脑负责高频本体感觉调制，脊髓负责快速执行
无需额外数据或特殊指导即可涌现出生物运动特性：消除机械臂抖动、显著节能（神经形态处理器仅0.4W）、具有时间记忆能力、触发安全反射仅需20毫秒…

Card 01 研究单位

研究单位

香港科技大学（广州）人工智能学域，中国广州
AI² Robotics，中国深圳

Card 02 论文概述

论文概述

提出 NeuroVLA（神经形态视觉-语言-动作）框架，首次将神经形态VLA部署到实体机器人上，实现最先进性能
借鉴生物运动神经系统的层级分工结构：皮层负责语义规划，小脑负责高频本体感觉调制，脊髓负责快速执行
无需额外数据或特殊指导即可涌现出生物运动特性：消除机械臂抖动、显著节能（神经形态处理器仅0.4W）、具有时间记忆能力、触发安全反射仅需20毫秒以内

Card 03 核心贡献

核心贡献

提出三层级神经形态VLA架构，模拟大脑皮层、小脑和脊髓的功能分工
皮层模块：使用Q-Former从VLM中提取紧凑的任务意图信号，实现语义蒸馏
小脑模块：基于GRU的本体感觉状态估计，通过门控FiLM机制进行增益控制和轨迹 refinement
脊髓模块：基于LIF动力学的尖峰神经网络，实现事件驱动的稀疏计算和低能耗执行
实现快速安全反射：碰撞时通过6-DoF力传感器检测，在50ms内触发撤回反射，20ms内绕过皮层环路
在真实机器人上验证：性能优于OpenVLA、OpenVLA-OFT、UniVLA、WorldVLA等先进VLA基线

Card 04 方法描述

方法描述

皮层模块（Cortical Module）：使用Qwen-VL作为视觉语言推理骨干，通过Q-Former进行层级语义蒸馏，生成紧凑的语义潜在意图
小脑模块（Cerebellar Module）：使用GRU进行本体感觉状态估计，通过门控FiLM实现特征级线性调制，包含迭代 refinement 循环模拟内部前向模型
脊髓模块（Spinal Module）：采用状态ful的LIF神经元和深度尖峰残差架构，通过连续积分协议将离散尖峰转换为连续动作，使用代理梯度学习进行端到端训练

Card 05 数据集与资源

数据集与资源

数据集：LIBERO和LIBERO-Plus基准测试
训练数据：仅使用预训练的VLM权重，在少量下游样本（几百个）上进行微调
神经形态处理器：基于FPGA的自定义处理器，采用LIF systolic-array架构
推理延迟：2.19ms（20MHz）
能耗：0.87mJ/推理

Card 06 评估与结果

评估与结果

运动平滑度：小脑模块减少平均jerk达75.6%（峰值80.2%），减少平均加速度32.8%-58.0%
消融实验：多步SNN在长程任务（如"Bowl on stove"）显著优于单步SNN和无小脑基线
实际机器人任务：在试管重新放置、物品整理、液体倾倒、摇动烧瓶等任务上持续优于所有基线
安全关键测试：在意外碰撞恢复测试中达到54.8%恢复率，基线模型为0%
能量效率：静态保持阶段激活率显著降低，实现"按需活动"能量Profile