Lite VLA: Efficient Vision-Language-Action Control on CPU-Bound Edge Robots

一眼看懂封面预览

论文提出了 LiteVLA，一个轻量级的视觉-语言-动作模型，旨在资源受限的边缘机器人上实现高效的端侧推理与控制。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

实现了首个基于 GGUF 量化策略的 VLA 模型与 ROS 2 的集成，在 Raspberry Pi 4 上实现了完全基于 CPU 的异步推理与控制。
提出了混合精度量化方案（NF4 主干 + FP32 投影头），在保持输出稳定性的同时，相比 FP32 基线实现了 9 倍 的推理加速和约 75% 的内存节省。
利用 LoRA 技术对模型进行参数高效微调，使其适应视觉运动控制任务，同时保持较低的计算开销。
构建了端到端的流水线，将 RGB 图像直接映射为结构化的运动指令，并在 TurtleBot 4 上验证了可行性。

Card 04 方法描述

Card 05 数据集与资源

数据集：包含 15,083 个图像-动作对，通过手动遥操作 TurtleBot 4 采集，包含前进、后退、转向等动作标签。
硬件平台：Raspberry Pi 4（4GB RAM, 四核 ARM Cortex-A72 CPU），TurtleBot 4 移动机器人。
模型规模：基础模型参数量约 2.56 亿（SmolVLM-256M）。

Card 06 评估与结果

- SmolVLM-256 (FP32) 基线推理延迟约为 11 秒。

- LiteVLA (FP32) 推理延迟约为 18 分钟（模型较大或未优化）。

- LiteVLA (Hybrid, NF4+FP32) 推理延迟约为 2 分钟，相比 FP32 版本加速 9 倍，且输出稳定。

- 全量化模型（LiteVLA 4b）延迟约为 1.5 分钟，但输出不稳定。