一眼看懂
封面预览
论文提出 VLAgents,一个模块化的策略服务器,用于高效部署 Vision-Language-Action(VLA)模型
- 论文提出 VLAgents,一个模块化的策略服务器,用于高效部署 Vision-Language-Action(VLA)模型
- 针对 VLA 部署中接口碎片化和分布式设置中通信延迟问题,提供统一的 Gymnasium 风格通信协议
- 支持两种通信模式:本地共享内存(零拷贝,用于高速模拟)和 JPEG 压缩流式传输(用于远程硬件)
Card 01
研究单位
研究单位
- University of Technology Nuremberg(德国纽伦堡工业大学)
- Technical University of Munich(德国慕尼黑工业大学)
Card 02
论文概述
论文概述
- 论文提出 VLAgents,一个模块化的策略服务器,用于高效部署 Vision-Language-Action(VLA)模型
- 针对 VLA 部署中接口碎片化和分布式设置中通信延迟问题,提供统一的 Gymnasium 风格通信协议
- 支持两种通信模式:本地共享内存(零拷贝,用于高速模拟)和 JPEG 压缩流式传输(用于远程硬件)
Card 03
核心贡献
核心贡献
- 提出统一的可插拔策略接口,封装 VLA 模型推理,支持模型加载、重置和推理三个核心函数
- 实现通信层的透明自适应:根据上下文自动切换共享内存(本地)和 TCP 网络传输(远程)
- 集成七个不同策略:Octo、OpenVLA、OpenPi 系列(π₀、fast、π₀.5)、Diffusion Policy、V-JEPA 2、ARRO
- 支持 Maniskill3 模拟环境和 Robot Control Stack(RCS) 生态系统
- 性能优于 OpenVLA、OpenPi、LeRobot 的默认策略服务器,速度提升约 3 倍
Card 04
方法描述
方法描述
- 使用 RPyC(基于 TCP 的 Python 远程过程调用库)作为通信基础
- 定义标准数据结构(Obs、Act、Agent),具有专用的类型化属性(如 RGB 输入、夹爪信息、动作输出)
- 客户端具有连接感知能力:同一主机运行时使用共享内存避免序列化,跨机器运行时使用 JPEG 压缩传输图像数据
- 提供环境循环、Slurm 兼容和视频录制工具,支持自动化评估
Card 05
数据集与资源
数据集与资源
- 模拟环境:Maniskill3、MuJoCo 仿真环境
- 机器人平台:Robot Control Stack(RCS),支持四种不同机械臂
- 测试配置:两台 224×224 RGB 相机,本地和局域网(1 Gbit Ethernet)设置
Card 06
评估与结果
评估与结果
- 评估指标:Round-Trip Time(RTT) 往返延迟
- 网络部署:最高可达 220 Hz 推理速度
- 模拟评估:仅引入 0.3 ms 延迟
- VLAgents 在本地和远程设置中均优于其他四个测试的策略服务器
- 由于 JPEG 编码和共享内存的使用,比其他常用策略服务器快约 3 倍