论文提出 VLAgents，一个模块化的策略服务器，用于高效部署 Vision-Language-Action（VLA）模型

论文详情

VLAgents: A Policy Server for Efficient VLA Inference

2026-01-16 · 原文 · 翻译 · 2601.11250

论文提出 VLAgents，一个模块化的策略服务器，用于高效部署 Vision-Language-Action（VLA）模型针对 VLA 部署中接口碎片化和分布式设置中通信延迟问题，提供统一的 Gymnasium 风格通信协议支持两种通信模式：本地共享内存（零拷贝，用于高速模拟）和 JPEG 压缩流式传输（用于远程硬件）

4 分钟读完 6 张阅读卡 University of Technology Nuremberg（德国纽伦堡工业大学）

一眼看懂封面预览

论文提出 VLAgents，一个模块化的策略服务器，用于高效部署 Vision-Language-Action（VLA）模型

论文提出 VLAgents，一个模块化的策略服务器，用于高效部署 Vision-Language-Action（VLA）模型
针对 VLA 部署中接口碎片化和分布式设置中通信延迟问题，提供统一的 Gymnasium 风格通信协议
支持两种通信模式：本地共享内存（零拷贝，用于高速模拟）和 JPEG 压缩流式传输（用于远程硬件）

Card 01 研究单位

研究单位

University of Technology Nuremberg（德国纽伦堡工业大学）
Technical University of Munich（德国慕尼黑工业大学）

Card 02 论文概述

论文概述

论文提出 VLAgents，一个模块化的策略服务器，用于高效部署 Vision-Language-Action（VLA）模型
针对 VLA 部署中接口碎片化和分布式设置中通信延迟问题，提供统一的 Gymnasium 风格通信协议
支持两种通信模式：本地共享内存（零拷贝，用于高速模拟）和 JPEG 压缩流式传输（用于远程硬件）

Card 03 核心贡献

核心贡献

提出统一的可插拔策略接口，封装 VLA 模型推理，支持模型加载、重置和推理三个核心函数
实现通信层的透明自适应：根据上下文自动切换共享内存（本地）和 TCP 网络传输（远程）
集成七个不同策略：Octo、OpenVLA、OpenPi 系列（π₀、fast、π₀.5）、Diffusion Policy、V-JEPA 2、ARRO
支持 Maniskill3 模拟环境和 Robot Control Stack（RCS） 生态系统
性能优于 OpenVLA、OpenPi、LeRobot 的默认策略服务器，速度提升约 3 倍

Card 04 方法描述

方法描述

使用 RPyC（基于 TCP 的 Python 远程过程调用库）作为通信基础
定义标准数据结构（Obs、Act、Agent），具有专用的类型化属性（如 RGB 输入、夹爪信息、动作输出）
客户端具有连接感知能力：同一主机运行时使用共享内存避免序列化，跨机器运行时使用 JPEG 压缩传输图像数据
提供环境循环、Slurm 兼容和视频录制工具，支持自动化评估

Card 05 数据集与资源

数据集与资源

模拟环境：Maniskill3、MuJoCo 仿真环境
机器人平台：Robot Control Stack（RCS），支持四种不同机械臂
测试配置：两台 224×224 RGB 相机，本地和局域网（1 Gbit Ethernet）设置

Card 06 评估与结果

评估与结果

评估指标：Round-Trip Time（RTT） 往返延迟
网络部署：最高可达 220 Hz 推理速度
模拟评估：仅引入 0.3 ms 延迟
VLAgents 在本地和远程设置中均优于其他四个测试的策略服务器
由于 JPEG 编码和共享内存的使用，比其他常用策略服务器快约 3 倍