返回列表 VLA / Vision-Language-Action 每日论文卡
VLAgents: A Policy Server for Efficient VLA Inference
论文提出 VLAgents,一个模块化的策略服务器,用于高效部署 Vision-Language-Action(VLA)模型

论文详情

VLAgents: A Policy Server for Efficient VLA Inference

2026-01-16 · 原文 · 翻译 · 2601.11250

论文提出 VLAgents,一个模块化的策略服务器,用于高效部署 Vision-Language-Action(VLA)模型 针对 VLA 部署中接口碎片化和分布式设置中通信延迟问题,提供统一的 Gymnasium 风格通信协议 支持两种通信模式:本地共享内存(零拷贝,用于高速模拟)和 JPEG 压缩流式传输(用于远程硬件)

4 分钟读完 6 张阅读卡 University of Technology Nuremberg(德国纽伦堡工业大学)
一眼看懂 封面预览

论文提出 VLAgents,一个模块化的策略服务器,用于高效部署 Vision-Language-Action(VLA)模型

  • 论文提出 VLAgents,一个模块化的策略服务器,用于高效部署 Vision-Language-Action(VLA)模型
  • 针对 VLA 部署中接口碎片化和分布式设置中通信延迟问题,提供统一的 Gymnasium 风格通信协议
  • 支持两种通信模式:本地共享内存(零拷贝,用于高速模拟)和 JPEG 压缩流式传输(用于远程硬件)
Card 01 研究单位

研究单位

  • University of Technology Nuremberg(德国纽伦堡工业大学)
  • Technical University of Munich(德国慕尼黑工业大学)
Card 02 论文概述

论文概述

  • 论文提出 VLAgents,一个模块化的策略服务器,用于高效部署 Vision-Language-Action(VLA)模型
  • 针对 VLA 部署中接口碎片化和分布式设置中通信延迟问题,提供统一的 Gymnasium 风格通信协议
  • 支持两种通信模式:本地共享内存(零拷贝,用于高速模拟)和 JPEG 压缩流式传输(用于远程硬件)
Card 03 核心贡献

核心贡献

  • 提出统一的可插拔策略接口,封装 VLA 模型推理,支持模型加载、重置和推理三个核心函数
  • 实现通信层的透明自适应:根据上下文自动切换共享内存(本地)和 TCP 网络传输(远程)
  • 集成七个不同策略:OctoOpenVLA、OpenPi 系列(π₀、fast、π₀.5)、Diffusion PolicyV-JEPA 2ARRO
  • 支持 Maniskill3 模拟环境和 Robot Control Stack(RCS) 生态系统
  • 性能优于 OpenVLAOpenPiLeRobot 的默认策略服务器,速度提升约 3 倍
Card 04 方法描述

方法描述

  • 使用 RPyC(基于 TCP 的 Python 远程过程调用库)作为通信基础
  • 定义标准数据结构(Obs、Act、Agent),具有专用的类型化属性(如 RGB 输入、夹爪信息、动作输出)
  • 客户端具有连接感知能力:同一主机运行时使用共享内存避免序列化,跨机器运行时使用 JPEG 压缩传输图像数据
  • 提供环境循环、Slurm 兼容和视频录制工具,支持自动化评估
Card 05 数据集与资源

数据集与资源

  • 模拟环境:Maniskill3MuJoCo 仿真环境
  • 机器人平台:Robot Control Stack(RCS),支持四种不同机械臂
  • 测试配置:两台 224×224 RGB 相机,本地和局域网(1 Gbit Ethernet)设置
Card 06 评估与结果

评估与结果

  • 评估指标:Round-Trip Time(RTT) 往返延迟
  • 网络部署:最高可达 220 Hz 推理速度
  • 模拟评估:仅引入 0.3 ms 延迟
  • VLAgents 在本地和远程设置中均优于其他四个测试的策略服务器
  • 由于 JPEG 编码和共享内存的使用,比其他常用策略服务器快约 3 倍