一眼看懂
封面预览
提出 CO-RFT(Chunked Offline Reinforced Fine-Tuning)算法,旨在高效微调视觉-语言-动作(VLA)…
- 提出 CO-RFT(Chunked Offline Reinforced Fine-Tuning)算法,旨在高效微调视觉-语言-动作(VLA)…
- 核心是解决用强化学习(RL)微调VLA模型时面临的样本效率低、与动作分块(Action Chunking)技术不兼容、训练不稳定等挑战。
- 核心方法结合了分块离线强化学习与模仿学习,以提升模型在真实机器人控制任务中的成功率和泛化能力。
Card 01
研究单位
研究单位
- 北京航空航天大学(作者关联单位,根据通讯作者邮箱 xch@buaa.edu.cn 推断)
- 作者单位上标1、2、3,显示有多个机构协作,但文中未明确列出全部机构名称。
Card 02
论文概述
论文概述
- 提出 CO-RFT(Chunked Offline Reinforced Fine-Tuning)算法,旨在高效微调视觉-语言-动作(VLA)模型,仅需少量演示数据(30-60个样本)。
- 核心是解决用强化学习(RL)微调VLA模型时面临的样本效率低、与动作分块(Action Chunking)技术不兼容、训练不稳定等挑战。
- 核心方法结合了分块离线强化学习与模仿学习,以提升模型在真实机器人控制任务中的成功率和泛化能力。
Card 03
核心贡献
核心贡献
- 提出了 Chunked RL 框架:一种专为VLA模型设计的强化学习框架,将时序差分(TD)学习扩展以兼容VLA模型中常见的动作分块技术。
- 提出了 CO-RFT 两阶段算法:第一阶段通过全参数微调进行模仿学习(IL),初始化VLA模型;第二阶段使用结合动作分块的离线RL(基于CalQL)进一步优化策略。
- 实现了对预训练VLA模型(如RoboVLMs)到新机器人形态(灵巧手)的高效迁移与微调。
- 在真实世界机器人实验中验证了有效性,相比监督微调(SFT),成功率提升57%,周期时间减少22.3%,并展现出强大的位置泛化能力。
- 引入了 Reward Upsampling 数据收集策略,以缓解稀疏奖励环境下的学习挑战。
Card 04
方法描述
方法描述
- 技术方法:采用两阶段微调。第一阶段为行为克隆(BC),全参数微调VLM主干和策略头以适应新机器人。第二阶段为分块离线强化学习,使用Transformer块构建的分块评论家网络,输入状态和动作块,预测一系列Q值,并利用这些Q值的均值来优化动作块。
- 创新点与关键技术:
- 分块TD学习:将标准TD学习的目标扩展为基于动作块和h步未来状态的回报。
- 分块评论家:使用带因果掩码的自注意力机制,单一网络即可学习动作块内所有动作对应的多步(N-step)Q值。
- 分块CalQL目标:将离线RL算法CalQL的保守正则化项与TD误差项适配到分块设定中,以处理分布外动作并稳定训练。
Card 05
数据集与资源
数据集与资源
- 使用的数据集:在真实世界环境中为6个灵巧操作任务(如抓取杯子、夹取立方体等)收集的少量人类演示数据(每个任务30-60个样本)。
- 模型规模和参数量:基于 RoboVLMs 模型(使用Kosmos2作为VLM主干)进行微调。具体参数量文中未明确给出,但属于大型视觉-语言-动作模型范畴。
- 训练资源:实验硬件采用配备6自由度机械臂和灵巧手的 Realman Single-arm 机器人平台,以及ZED2立体相机。训练具体使用的GPU/TPU资源未在提供的原文节选中明确说明。
Card 06
评估与结果
评估与结果
- 评估环境与基准:在真实世界机器人平台上评估6个具有挑战性的灵巧操作任务。主要对比基准是监督微调(SFT / 行为克隆)。
- 主要评估指标:成功率(SR) 和平均周期时间(CT)。
- 关键实验结果:
- In-Distribution (IND) 场景:CO-RFT相比SFT,平均成功率提升57%(例如,在四个任务上接近100%成功率),平均周期时间减少22.3%。
- Out-of-Distribution (OOD) 场景(物体置于未见过的位置):CO-RFT展现出强大的位置泛化能力,平均成功率达44.3%,显著优于SFT。
- 数据多样性分析:使用随机初始位置收集的多样化数据训练的模型,其OOD性能下降(平均-11.7%)远小于使用固定初始位置数据训练的模型(平均-55.3%),凸显了数据多样性对离线RL泛化能力的重要性。