返回列表 VLA / Vision-Language-Action 每日论文卡
RoboNeuron: A Modular Framework Linking Foundation Models and ROS for Embodied AI
提出 RoboNeuron,一个面向具身智能的通用部署框架,首次深度集成大语言模型(LLM)和视觉-语言-动作(VLA)模型的认知能力与机器人…

论文详情

RoboNeuron: A Modular Framework Linking Foundation Models and ROS for Embodied AI

2025-12-11 · 原文 · 翻译 · 2512.10394

提出 RoboNeuron,一个面向具身智能的通用部署框架,首次深度集成大语言模型(LLM)和视觉-语言-动作(VLA)模型的认知能力与机器人操作系统(ROS)的实时执行能力 解决当前具身AI系统面临的三大工程障碍:跨场景适应性差、模块间紧耦合、推理加速碎片化 利用 Model Context Protocol (MCP) 作为语义桥梁,实现LLM对底层机器人工具的动态编排

6 分钟读完 6 张阅读卡 Institute of Automation, Chinese Academy of Science…
一眼看懂 封面预览

提出 RoboNeuron,一个面向具身智能的通用部署框架,首次深度集成大语言模型(LLM)和视觉-语言-动作(VLA)模型的认知能力与机器人…

  • 提出 RoboNeuron,一个面向具身智能的通用部署框架,首次深度集成大语言模型(LLM)和视觉-语言-动作(VLA)模型的认知能力与机器人…
  • 解决当前具身AI系统面临的三大工程障碍:跨场景适应性差、模块间紧耦合、推理加速碎片化
  • 利用 Model Context Protocol (MCP) 作为语义桥梁,实现LLM对底层机器人工具的动态编排
Card 01 研究单位

研究单位

  • Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所)
  • University of Chinese Academy of Sciences(中国科学院大学)
  • AiRiA(中科南京人工智能创新研究院)
  • MICRO(北京微芯区块链与边缘计算研究院)
Card 02 论文概述

论文概述

  • 提出 RoboNeuron,一个面向具身智能的通用部署框架,首次深度集成大语言模型(LLM)和视觉-语言-动作(VLA)模型的认知能力与机器人操作系统(ROS)的实时执行能力
  • 解决当前具身AI系统面临的三大工程障碍:跨场景适应性差、模块间紧耦合、推理加速碎片化
  • 利用 Model Context Protocol (MCP) 作为语义桥梁,实现LLM对底层机器人工具的动态编排
Card 03 核心贡献

核心贡献

  • 首个LLM驱动的ROS控制集成框架:通过MCP协议和自动化ROS消息翻译器,实现LLM/VLA认知生态与ROS执行生态的无缝、类型安全集成
  • 模块化解耦架构:基于ROS统一通信机制,建立严格解耦的感知-规划-控制模块,显著提升硬件、传感器和算法的替换灵活性
  • 系统化集成与基准测试平台:系统整合VLA推理引擎和加速算法,为研究人员提供统一的横向性能比较平台
  • ROS2MCP自动化翻译器:自动解析ROS消息结构并生成Pydantic验证的MCP工具定义,消除LLM自由形式意图与ROS刚性协议之间的语义鸿沟
  • Wrapper抽象机制:通过CameraWrapper、ModelWrapper、AdapterWrapper等标准化接口,实现跨平台部署和组件可互换性
Card 04 方法描述

方法描述

  • 分层认知-执行架构:严格分离认知核心(LLM编排)、语义桥接(MCP工具库)和执行环境(ROS中间件)
  • 双路径执行机制:简单路径(低延迟命令直接发布到ROS主题)和复杂路径(VLA驱动的感知-动作循环)
  • 动态运动学求解:运行时动态解析URDF文件,构建特定运动链进行逆运动学(IK)计算,无需预编译的机器人专用库
  • 按需资源调度:将传感器激活作为动态调度的MCP工具,通过进程级隔离实现计算资源节约和系统鲁棒性增强
  • 可配置后端注册表:支持多种VLA模型(OpenVLA、OpenVLA-OFT等)和加速变体的动态选择与切换
Card 05 数据集与资源

数据集与资源

  • 仿真环境:NVIDIA Isaac Sim、LIBERO基准环境
  • 物理平台:Franka Emika Research 3 (FR3) 机械臂、Intel RealSense D435i 相机
  • VLA模型OpenVLAOpenVLA-OFT、π系列模型(π₀、π₀.₅、π*₀.₆)
  • 认知核心DeepSeek-Chat
  • 推理后端:llama.cpp等高效推理引擎
  • 代码开源:https://github.com/guanweifan/RoboNeuron
Card 06 评估与结果

评估与结果

  • 评估场景:三类互补案例研究——异构车辆统一控制(Isaac Sim)、运动学感知操作(Isaac Sim)、真实世界VLA驱动抓取(Franka FR3)
  • 关键验证结果

- 统一协议访问:通过ROS2MCP翻译器实现对标准(Twist)和自定义(EECommand)ROS接口的类型安全访问

- 模块可互换性:从仿真Panda臂到真实FR3臂、从仿真感知到RealSense管道的无缝切换,无需修改高层推理

- LLM编排闭环执行:成功实现感知-VLA-控制的完整闭环,LLM管理模块激活、驱动异步数据流并监督完整任务生命周期

  • 性能指标:低延迟集成、可靠的端到端协调、跨场景一致迁移