RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models

论文详情

RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models

2025-06-21 · 原文 · 翻译 · 2506.17639

视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色，但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。论文旨在解决VLA模型因模型规模庞大导致的部署难题，提出了一个名为 RLRC 的三阶段压缩与恢复框架。 RLRC实现了高达 8倍的内存减少和 2.3倍的推理吞吐量提升，同时保持甚至超越了原始模型的任务成功率。

4 分钟读完 6 张阅读卡上海交通大学机械工程学院

一眼看懂封面预览

视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色，但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。

视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色，但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。
论文旨在解决VLA模型因模型规模庞大导致的部署难题，提出了一个名为 RLRC 的三阶段压缩与恢复框架。
RLRC实现了高达 8倍的内存减少和 2.3倍的推理吞吐量提升，同时保持甚至超越了原始模型的任务成功率。

Card 01 研究单位

研究单位

上海交通大学 机械工程学院

Card 02 论文概述

论文概述

视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色，但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。
论文旨在解决VLA模型因模型规模庞大导致的部署难题，提出了一个名为 RLRC 的三阶段压缩与恢复框架。
RLRC实现了高达 8倍的内存减少和 2.3倍 的推理吞吐量提升，同时保持甚至超越了原始模型的任务成功率。

Card 03 核心贡献

核心贡献

系统探索并实证分析了量化、剪枝、知识蒸馏等通用模型压缩技术在VLA模型上的适用性与权衡。
提出一个新颖的压缩框架，创新性地结合了结构化剪枝、监督微调、强化学习和训练后量化，在保持任务精度的同时实现高效压缩。
通过大量实验验证了所提方法的有效性，证明了其在资源受限环境下部署VLA模型的实用价值。

Card 04 方法描述

方法描述

阶段一：结构化剪枝。针对VLA中的LLM组件，采用基于泰勒重要性准则的块级结构化剪枝（使用 LLM-Pruner），以 90% 的激进修剪率大幅减少模型规模，同时保留输入输出维度以确保架构兼容性。
阶段二：性能恢复。首先使用监督微调在少量步数内初步恢复模型性能；随后采用近端策略优化算法进行强化学习微调，以优化长期奖励并显著提升模型在分布外任务上的泛化能力。
阶段三：进一步量化。在恢复性能的基础上，可选地应用 4位量化 以实现极端的内存压缩，满足资源极度受限场景的部署需求。

Card 05 数据集与资源

数据集与资源

数据集：ManiSkill3 基准，包含16个分布内任务和9个分布外任务。
基础模型：OpenVLA，参数量为 7.54B。
硬件资源：NVIDIA RTX 5880 Ada GPU用于实验测试。

Card 06 评估与结果

评估与结果

评估基准：ManiSkill3 仿真环境，对比基线包括原始OpenVLA、VLA-Cache、单独量化和单独剪枝等方法。
主要评估指标：任务成功率（IND/OOD）、内存消耗、推理延迟、推理吞吐量。
关键实验结果：

- RLRC 在IND和OOD任务上成功率分别达到 90.62% 和 62.50%，均优于原始模型。

- RLRC-4bit 版本将内存消耗降至 1.772GB（原为14.858GB），吞吐量提升至 9.9 samples/s。

- 相比其他压缩方法，RLRC在保持最高任务成功率的同时，实现了最佳的内存效率和推理速度。