一眼看懂
封面预览
视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色,但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。
- 视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色,但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。
- 论文旨在解决VLA模型因模型规模庞大导致的部署难题,提出了一个名为 RLRC 的三阶段压缩与恢复框架。
- RLRC实现了高达 8倍 的内存减少和 2.3倍 的推理吞吐量提升,同时保持甚至超越了原始模型的任务成功率。
Card 01
研究单位
研究单位
- 上海交通大学 机械工程学院
Card 02
论文概述
论文概述
- 视觉-语言-动作模型在解决复杂机器人操作任务方面表现出色,但巨大的参数量和推理延迟限制了其在资源受限平台上的部署。
- 论文旨在解决VLA模型因模型规模庞大导致的部署难题,提出了一个名为 RLRC 的三阶段压缩与恢复框架。
- RLRC实现了高达 8倍 的内存减少和 2.3倍 的推理吞吐量提升,同时保持甚至超越了原始模型的任务成功率。
Card 03
核心贡献
核心贡献
- 系统探索并实证分析了量化、剪枝、知识蒸馏等通用模型压缩技术在VLA模型上的适用性与权衡。
- 提出一个新颖的压缩框架,创新性地结合了结构化剪枝、监督微调、强化学习和训练后量化,在保持任务精度的同时实现高效压缩。
- 通过大量实验验证了所提方法的有效性,证明了其在资源受限环境下部署VLA模型的实用价值。
Card 04
方法描述
方法描述
- 阶段一:结构化剪枝。针对VLA中的LLM组件,采用基于泰勒重要性准则的块级结构化剪枝(使用 LLM-Pruner),以 90% 的激进修剪率大幅减少模型规模,同时保留输入输出维度以确保架构兼容性。
- 阶段二:性能恢复。首先使用监督微调在少量步数内初步恢复模型性能;随后采用近端策略优化算法进行强化学习微调,以优化长期奖励并显著提升模型在分布外任务上的泛化能力。
- 阶段三:进一步量化。在恢复性能的基础上,可选地应用 4位量化 以实现极端的内存压缩,满足资源极度受限场景的部署需求。
Card 05
数据集与资源
数据集与资源
- 数据集:ManiSkill3 基准,包含16个分布内任务和9个分布外任务。
- 基础模型:OpenVLA,参数量为 7.54B。
- 硬件资源:NVIDIA RTX 5880 Ada GPU用于实验测试。
Card 06
评估与结果
评估与结果
- 评估基准:ManiSkill3 仿真环境,对比基线包括原始OpenVLA、VLA-Cache、单独量化和单独剪枝等方法。
- 主要评估指标:任务成功率(IND/OOD)、内存消耗、推理延迟、推理吞吐量。
- 关键实验结果:
- RLRC 在IND和OOD任务上成功率分别达到 90.62% 和 62.50%,均优于原始模型。
- RLRC-4bit 版本将内存消耗降至 1.772GB(原为14.858GB),吞吐量提升至 9.9 samples/s。
- 相比其他压缩方法,RLRC在保持最高任务成功率的同时,实现了最佳的内存效率和推理速度。