返回列表 VLA / Vision-Language-Action 每日论文卡

RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models

论文详情

RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models

2025-06-21 · 原文 · 翻译 · 2506.17639

视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色,但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。 论文旨在解决VLA模型因模型规模庞大导致的部署难题,提出了一个名为 RLRC 的三阶段压缩与恢复框架。 RLRC实现了高达 8倍 的内存减少和 2.3倍 的推理吞吐量提升,同时保持甚至超越了原始模型的任务成功率。

4 分钟读完 6 张阅读卡 上海交通大学 机械工程学院
一眼看懂 封面预览

视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色,但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。

  • 视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色,但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。
  • 论文旨在解决VLA模型因模型规模庞大导致的部署难题,提出了一个名为 RLRC 的三阶段压缩与恢复框架。
  • RLRC实现了高达 8倍 的内存减少和 2.3倍 的推理吞吐量提升,同时保持甚至超越了原始模型的任务成功率。
Card 01 研究单位

研究单位

  • 上海交通大学 机械工程学院
Card 02 论文概述

论文概述

  • 视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色,但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。
  • 论文旨在解决VLA模型因模型规模庞大导致的部署难题,提出了一个名为 RLRC 的三阶段压缩与恢复框架。
  • RLRC实现了高达 8倍 的内存减少和 2.3倍 的推理吞吐量提升,同时保持甚至超越了原始模型的任务成功率。
Card 03 核心贡献

核心贡献

  • 系统探索并实证分析了量化、剪枝、知识蒸馏等通用模型压缩技术在VLA模型上的适用性与权衡。
  • 提出一个新颖的压缩框架,创新性地结合了结构化剪枝、监督微调、强化学习和训练后量化,在保持任务精度的同时实现高效压缩。
  • 通过大量实验验证了所提方法的有效性,证明了其在资源受限环境下部署VLA模型的实用价值。
Card 04 方法描述

方法描述

  • 阶段一:结构化剪枝。针对VLA中的LLM组件,采用基于泰勒重要性准则的块级结构化剪枝(使用 LLM-Pruner),以 90% 的激进修剪率大幅减少模型规模,同时保留输入输出维度以确保架构兼容性。
  • 阶段二:性能恢复。首先使用监督微调在少量步数内初步恢复模型性能;随后采用近端策略优化算法进行强化学习微调,以优化长期奖励并显著提升模型在分布外任务上的泛化能力。
  • 阶段三:进一步量化。在恢复性能的基础上,可选地应用 4位量化 以实现极端的内存压缩,满足资源极度受限场景的部署需求。
Card 05 数据集与资源

数据集与资源

  • 数据集ManiSkill3 基准,包含16个分布内任务和9个分布外任务。
  • 基础模型OpenVLA,参数量为 7.54B
  • 硬件资源NVIDIA RTX 5880 Ada GPU用于实验测试。
Card 06 评估与结果

评估与结果

  • 评估基准ManiSkill3 仿真环境,对比基线包括原始OpenVLA、VLA-Cache、单独量化和单独剪枝等方法。
  • 主要评估指标:任务成功率(IND/OOD)、内存消耗、推理延迟、推理吞吐量。
  • 关键实验结果

- RLRC 在IND和OOD任务上成功率分别达到 90.62%62.50%,均优于原始模型。

- RLRC-4bit 版本将内存消耗降至 1.772GB(原为14.858GB),吞吐量提升至 9.9 samples/s

- 相比其他压缩方法,RLRC在保持最高任务成功率的同时,实现了最佳的内存效率和推理速度。