一眼看懂
封面预览
提出 RoboNeuron,一个面向具身智能的通用部署框架,首次深度集成大语言模型(LLM)和视觉-语言-动作(VLA)模型的认知能力与机器人…
- 提出 RoboNeuron,一个面向具身智能的通用部署框架,首次深度集成大语言模型(LLM)和视觉-语言-动作(VLA)模型的认知能力与机器人…
- 解决当前具身AI系统面临的三大工程障碍:跨场景适应性差、模块间紧耦合、推理加速碎片化
- 利用 Model Context Protocol (MCP) 作为语义桥梁,实现LLM对底层机器人工具的动态编排
Card 01
研究单位
研究单位
- Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所)
- University of Chinese Academy of Sciences(中国科学院大学)
- AiRiA(中科南京人工智能创新研究院)
- MICRO(北京微芯区块链与边缘计算研究院)
Card 02
论文概述
论文概述
- 提出 RoboNeuron,一个面向具身智能的通用部署框架,首次深度集成大语言模型(LLM)和视觉-语言-动作(VLA)模型的认知能力与机器人操作系统(ROS)的实时执行能力
- 解决当前具身AI系统面临的三大工程障碍:跨场景适应性差、模块间紧耦合、推理加速碎片化
- 利用 Model Context Protocol (MCP) 作为语义桥梁,实现LLM对底层机器人工具的动态编排
Card 03
核心贡献
核心贡献
- 首个LLM驱动的ROS控制集成框架:通过MCP协议和自动化ROS消息翻译器,实现LLM/VLA认知生态与ROS执行生态的无缝、类型安全集成
- 模块化解耦架构:基于ROS统一通信机制,建立严格解耦的感知-规划-控制模块,显著提升硬件、传感器和算法的替换灵活性
- 系统化集成与基准测试平台:系统整合VLA推理引擎和加速算法,为研究人员提供统一的横向性能比较平台
- ROS2MCP自动化翻译器:自动解析ROS消息结构并生成Pydantic验证的MCP工具定义,消除LLM自由形式意图与ROS刚性协议之间的语义鸿沟
- Wrapper抽象机制:通过CameraWrapper、ModelWrapper、AdapterWrapper等标准化接口,实现跨平台部署和组件可互换性
Card 04
方法描述
方法描述
- 分层认知-执行架构:严格分离认知核心(LLM编排)、语义桥接(MCP工具库)和执行环境(ROS中间件)
- 双路径执行机制:简单路径(低延迟命令直接发布到ROS主题)和复杂路径(VLA驱动的感知-动作循环)
- 动态运动学求解:运行时动态解析URDF文件,构建特定运动链进行逆运动学(IK)计算,无需预编译的机器人专用库
- 按需资源调度:将传感器激活作为动态调度的MCP工具,通过进程级隔离实现计算资源节约和系统鲁棒性增强
- 可配置后端注册表:支持多种VLA模型(OpenVLA、OpenVLA-OFT等)和加速变体的动态选择与切换
Card 05
数据集与资源
数据集与资源
- 仿真环境:NVIDIA Isaac Sim、LIBERO基准环境
- 物理平台:Franka Emika Research 3 (FR3) 机械臂、Intel RealSense D435i 相机
- VLA模型:OpenVLA、OpenVLA-OFT、π系列模型(π₀、π₀.₅、π*₀.₆)
- 认知核心:DeepSeek-Chat
- 推理后端:llama.cpp等高效推理引擎
- 代码开源:https://github.com/guanweifan/RoboNeuron
Card 06
评估与结果
评估与结果
- 评估场景:三类互补案例研究——异构车辆统一控制(Isaac Sim)、运动学感知操作(Isaac Sim)、真实世界VLA驱动抓取(Franka FR3)
- 关键验证结果:
- 统一协议访问:通过ROS2MCP翻译器实现对标准(Twist)和自定义(EECommand)ROS接口的类型安全访问
- 模块可互换性:从仿真Panda臂到真实FR3臂、从仿真感知到RealSense管道的无缝切换,无需修改高层推理
- LLM编排闭环执行:成功实现感知-VLA-控制的完整闭环,LLM管理模块激活、驱动异步数据流并监督完整任务生命周期
- 性能指标:低延迟集成、可靠的端到端协调、跨场景一致迁移