一眼看懂
封面预览
提出 NeuroVLA(神经形态视觉-语言-动作)框架,首次将神经形态VLA部署到实体机器人上,实现最先进性能
- 提出 NeuroVLA(神经形态视觉-语言-动作)框架,首次将神经形态VLA部署到实体机器人上,实现最先进性能
- 借鉴生物运动神经系统的层级分工结构:皮层负责语义规划,小脑负责高频本体感觉调制,脊髓负责快速执行
- 无需额外数据或特殊指导即可涌现出生物运动特性:消除机械臂抖动、显著节能(神经形态处理器仅0.4W)、具有时间记忆能力、触发安全反射仅需20毫秒…
Card 01
研究单位
研究单位
- 香港科技大学(广州)人工智能学域,中国广州
- AI² Robotics,中国深圳
Card 02
论文概述
论文概述
- 提出 NeuroVLA(神经形态视觉-语言-动作)框架,首次将神经形态VLA部署到实体机器人上,实现最先进性能
- 借鉴生物运动神经系统的层级分工结构:皮层负责语义规划,小脑负责高频本体感觉调制,脊髓负责快速执行
- 无需额外数据或特殊指导即可涌现出生物运动特性:消除机械臂抖动、显著节能(神经形态处理器仅0.4W)、具有时间记忆能力、触发安全反射仅需20毫秒以内
Card 03
核心贡献
核心贡献
- 提出三层级神经形态VLA架构,模拟大脑皮层、小脑和脊髓的功能分工
- 皮层模块:使用Q-Former从VLM中提取紧凑的任务意图信号,实现语义蒸馏
- 小脑模块:基于GRU的本体感觉状态估计,通过门控FiLM机制进行增益控制和轨迹 refinement
- 脊髓模块:基于LIF动力学的尖峰神经网络,实现事件驱动的稀疏计算和低能耗执行
- 实现快速安全反射:碰撞时通过6-DoF力传感器检测,在50ms内触发撤回反射,20ms内绕过皮层环路
- 在真实机器人上验证:性能优于OpenVLA、OpenVLA-OFT、UniVLA、WorldVLA等先进VLA基线
Card 04
方法描述
方法描述
- 皮层模块(Cortical Module):使用Qwen-VL作为视觉语言推理骨干,通过Q-Former进行层级语义蒸馏,生成紧凑的语义潜在意图
- 小脑模块(Cerebellar Module):使用GRU进行本体感觉状态估计,通过门控FiLM实现特征级线性调制,包含迭代 refinement 循环模拟内部前向模型
- 脊髓模块(Spinal Module):采用状态ful的LIF神经元和深度尖峰残差架构,通过连续积分协议将离散尖峰转换为连续动作,使用代理梯度学习进行端到端训练
Card 05
数据集与资源
数据集与资源
- 数据集:LIBERO和LIBERO-Plus基准测试
- 训练数据:仅使用预训练的VLM权重,在少量下游样本(几百个)上进行微调
- 神经形态处理器:基于FPGA的自定义处理器,采用LIF systolic-array架构
- 推理延迟:2.19ms(20MHz)
- 能耗:0.87mJ/推理
Card 06
评估与结果
评估与结果
- 运动平滑度:小脑模块减少平均jerk达75.6%(峰值80.2%),减少平均加速度32.8%-58.0%
- 消融实验:多步SNN在长程任务(如"Bowl on stove")显著优于单步SNN和无小脑基线
- 实际机器人任务:在试管重新放置、物品整理、液体倾倒、摇动烧瓶等任务上持续优于所有基线
- 安全关键测试:在意外碰撞恢复测试中达到54.8%恢复率,基线模型为0%
- 能量效率:静态保持阶段激活率显著降低,实现"按需活动"能量Profile