CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning

一眼看懂封面预览

提出 CO-RFT（Chunked Offline Reinforced Fine-Tuning）算法，旨在高效微调视觉-语言-动作（VLA）…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 CO-RFT（Chunked Offline Reinforced Fine-Tuning）算法，旨在高效微调视觉-语言-动作（VLA）模型，仅需少量演示数据（30-60个样本）。
核心是解决用强化学习（RL）微调VLA模型时面临的样本效率低、与动作分块（Action Chunking）技术不兼容、训练不稳定等挑战。
核心方法结合了分块离线强化学习与模仿学习，以提升模型在真实机器人控制任务中的成功率和泛化能力。

Card 03 核心贡献

提出了 Chunked RL 框架：一种专为VLA模型设计的强化学习框架，将时序差分（TD）学习扩展以兼容VLA模型中常见的动作分块技术。
提出了 CO-RFT 两阶段算法：第一阶段通过全参数微调进行模仿学习（IL），初始化VLA模型；第二阶段使用结合动作分块的离线RL（基于CalQL）进一步优化策略。
实现了对预训练VLA模型（如RoboVLMs）到新机器人形态（灵巧手）的高效迁移与微调。
在真实世界机器人实验中验证了有效性，相比监督微调（SFT），成功率提升57%，周期时间减少22.3%，并展现出强大的位置泛化能力。
引入了 Reward Upsampling 数据收集策略，以缓解稀疏奖励环境下的学习挑战。

Card 04 方法描述

技术方法：采用两阶段微调。第一阶段为行为克隆（BC），全参数微调VLM主干和策略头以适应新机器人。第二阶段为分块离线强化学习，使用Transformer块构建的分块评论家网络，输入状态和动作块，预测一系列Q值，并利用这些Q值的均值来优化动作块。
创新点与关键技术：

- 分块TD学习：将标准TD学习的目标扩展为基于动作块和h步未来状态的回报。

- 分块评论家：使用带因果掩码的自注意力机制，单一网络即可学习动作块内所有动作对应的多步（N-step）Q值。

- 分块CalQL目标：将离线RL算法CalQL的保守正则化项与TD误差项适配到分块设定中，以处理分布外动作并稳定训练。

Card 05 数据集与资源

使用的数据集：在真实世界环境中为6个灵巧操作任务（如抓取杯子、夹取立方体等）收集的少量人类演示数据（每个任务30-60个样本）。
模型规模和参数量：基于 RoboVLMs 模型（使用Kosmos2作为VLM主干）进行微调。具体参数量文中未明确给出，但属于大型视觉-语言-动作模型范畴。
训练资源：实验硬件采用配备6自由度机械臂和灵巧手的 Realman Single-arm 机器人平台，以及ZED2立体相机。训练具体使用的GPU/TPU资源未在提供的原文节选中明确说明。

Card 06 评估与结果

- In-Distribution (IND) 场景：CO-RFT相比SFT，平均成功率提升57%（例如，在四个任务上接近100%成功率），平均周期时间减少22.3%。

- Out-of-Distribution (OOD) 场景（物体置于未见过的位置）：CO-RFT展现出强大的位置泛化能力，平均成功率达44.3%，显著优于SFT。

- 数据多样性分析：使用随机初始位置收集的多样化数据训练的模型，其OOD性能下降（平均-11.7%）远小于使用固定初始位置数据训练的模型（平均-55.3%），凸显了数据多样性对离线RL泛化能力的重要性。