返回列表 VLA / Vision-Language-Action 每日论文卡
Lite VLA: Efficient Vision-Language-Action Control on CPU-Bound Edge Robots
论文提出了 LiteVLA,一个轻量级的视觉-语言-动作模型,旨在资源受限的边缘机器人上实现高效的端侧推理与控制。

论文详情

Lite VLA: Efficient Vision-Language-Action Control on CPU-Bound Edge Robots

2025-11-07 · 原文 · 翻译 · 2511.05642

论文提出了 LiteVLA,一个轻量级的视觉-语言-动作模型,旨在资源受限的边缘机器人上实现高效的端侧推理与控制。 该系统解决了传统大型 VLA 模型(如 PaLM-E, RT-2)依赖云端算力、难以在无 GPU 的移动机器人上部署的问题。 通过模型量化与参数高效微调,实现了在 Raspberry Pi 4 上仅使用 CPU 进行实时场景理解与运动控制。

5 分钟读完 6 张阅读卡 Clark Atlanta University(网络物理系统系)
一眼看懂 封面预览

论文提出了 LiteVLA,一个轻量级的视觉-语言-动作模型,旨在资源受限的边缘机器人上实现高效的端侧推理与控制。

  • 论文提出了 LiteVLA,一个轻量级的视觉-语言-动作模型,旨在资源受限的边缘机器人上实现高效的端侧推理与控制。
  • 该系统解决了传统大型 VLA 模型(如 PaLM-E, RT-2)依赖云端算力、难以在无 GPU 的移动机器人上部署的问题。
  • 通过模型量化与参数高效微调,实现了在 Raspberry Pi 4 上仅使用 CPU 进行实时场景理解与运动控制。
Card 01 研究单位

研究单位

  • Clark Atlanta University(网络物理系统系)
  • Siemens Corporation
Card 02 论文概述

论文概述

  • 论文提出了 LiteVLA,一个轻量级的视觉-语言-动作模型,旨在资源受限的边缘机器人上实现高效的端侧推理与控制。
  • 该系统解决了传统大型 VLA 模型(如 PaLM-E, RT-2)依赖云端算力、难以在无 GPU 的移动机器人上部署的问题。
  • 通过模型量化与参数高效微调,实现了在 Raspberry Pi 4 上仅使用 CPU 进行实时场景理解与运动控制。
Card 03 核心贡献

核心贡献

  • 实现了首个基于 GGUF 量化策略的 VLA 模型与 ROS 2 的集成,在 Raspberry Pi 4 上实现了完全基于 CPU 的异步推理与控制。
  • 提出了混合精度量化方案(NF4 主干 + FP32 投影头),在保持输出稳定性的同时,相比 FP32 基线实现了 9 倍 的推理加速和约 75% 的内存节省。
  • 利用 LoRA 技术对模型进行参数高效微调,使其适应视觉运动控制任务,同时保持较低的计算开销。
  • 构建了端到端的流水线,将 RGB 图像直接映射为结构化的运动指令,并在 TurtleBot 4 上验证了可行性。
Card 04 方法描述

方法描述

  • 模型架构基于轻量级多模态模型 SmolVLM-256M
  • 训练流程包括数据采集(遥操作)、预处理(缩放至 224x224、归一化)、数据集划分(85:15)及模型微调。
  • 使用 LoRA(低秩适应)进行微调,配置为 rank=8, alpha=8, dropout=0.1。
  • 采用 NF4(4-bit NormalFloat)量化技术压缩模型权重,并保留投影头为 FP32 精度以防止控制信号的不稳定。
  • 利用 llama-cpp-python 运行时库在边缘设备上执行推理。
Card 05 数据集与资源

数据集与资源

  • 数据集:包含 15,083 个图像-动作对,通过手动遥操作 TurtleBot 4 采集,包含前进、后退、转向等动作标签。
  • 硬件平台Raspberry Pi 4(4GB RAM, 四核 ARM Cortex-A72 CPU),TurtleBot 4 移动机器人。
  • 模型规模:基础模型参数量约 2.56 亿(SmolVLM-256M)。
Card 06 评估与结果

评估与结果

  • 评估环境:在 Raspberry Pi 4 CPU 上进行推理延迟与内存占用测试。
  • 主要结果

- SmolVLM-256 (FP32) 基线推理延迟约为 11 秒

- LiteVLA (FP32) 推理延迟约为 18 分钟(模型较大或未优化)。

- LiteVLA (Hybrid, NF4+FP32) 推理延迟约为 2 分钟,相比 FP32 版本加速 9 倍,且输出稳定。

- 全量化模型(LiteVLA 4b)延迟约为 1.5 分钟,但输出不稳定。

  • 系统通过 ROS 2 的 Action Chunking 机制实现了高频低级控制与异步高级推理的结合。