论文针对 Vision-Language-Action (VLA) 模型在开放世界环境中的终身学习问题，提出了 CRL-VLA 框架。

论文详情

CRL-VLA: Continual Vision-Language-Action Learning

2026-02-03 · 原文 · 翻译 · 2602.03445

论文针对 Vision-Language-Action (VLA) 模型在开放世界环境中的终身学习问题，提出了 CRL-VLA 框架。研究旨在解决持续强化学习中的关键挑战：在获取新技能（可塑性）与保留旧技能（稳定性）之间取得平衡，防止灾难性遗忘。核心思想是将稳定性-可塑性困境重新定义为一种非对称调节问题，通过控制目标条件优势幅度来实现权衡。

4 分钟读完 6 张阅读卡 Qixin Zeng, Shuo Zhang, Hongyin Zhang, Renjie Wang…

一眼看懂封面预览

论文针对 Vision-Language-Action (VLA) 模型在开放世界环境中的终身学习问题，提出了 CRL-VLA 框架。

论文针对 Vision-Language-Action (VLA) 模型在开放世界环境中的终身学习问题，提出了 CRL-VLA 框架。
研究旨在解决持续强化学习中的关键挑战：在获取新技能（可塑性）与保留旧技能（稳定性）之间取得平衡，防止灾难性遗忘。
核心思想是将稳定性-可塑性困境重新定义为一种非对称调节问题，通过控制目标条件优势幅度来实现权衡。

Card 01 研究单位

研究单位

Qixin Zeng, Shuo Zhang, Hongyin Zhang, Renjie Wang, Han Zhao, Libang Zhao, Runze Li, Donglin Wang, Chao Huang（注：原文 HTML 片段中未明确列出作者所属具体机构名称）

Card 02 论文概述

论文概述

论文针对 Vision-Language-Action (VLA) 模型在开放世界环境中的终身学习问题，提出了 CRL-VLA 框架。
研究旨在解决持续强化学习中的关键挑战：在获取新技能（可塑性）与保留旧技能（稳定性）之间取得平衡，防止灾难性遗忘。
核心思想是将稳定性-可塑性困境重新定义为一种非对称调节问题，通过控制目标条件优势幅度来实现权衡。

Card 03 核心贡献

核心贡献

提出了 CRL-VLA 框架，这是首个针对 VLA 模型的持续性后训练框架，具有严格的理论界限。
发现并证明了 目标条件优势幅度 是决定稳定性-可塑性权衡的关键量，并推导出了统一的性能界限。
设计了带有 目标条件价值公式 (GCVF) 的双评论家架构，通过冻结评论家和可训练评论家实现非对称调节。

Card 04 方法描述

方法描述

基于理论推导（定理 4.1），建立了性能变化与优势幅度 ($M$) 及策略散度 ($D$) 之间的联系。
提出了 双评论家架构：一个冻结的 GCV 评论家 用于锚定旧任务的价值语义以保持稳定性，一个可训练的 MC 评论家 用于新任务的自适应学习。
引入了 目标条件价值公式 (GCVF)，将语言嵌入与状态表征拼接，增强模型对语言目标的跟随能力。
提出了一套综合训练目标，包含 PPO 损失、KL 正则化、GCV 一致性损失 和 MC 评论家损失，以拉格朗日松弛法实现约束优化。

Card 05 数据集与资源

数据集与资源

使用了 LIBERO 基准测试集，通过从共享任务池中随机采样任务构建持续学习场景。
基础模型使用了 OpenVLA-OFT 模型进行微调和评估。
训练资源信息（如 GPU 型号和数量）在提供的原文片段中未明确提及。

Card 06 评估与结果

评估与结果

评估环境包括单任务学习场景和多任务学习场景，对比了 SL, LwF, ER, MTL 等基线方法。
主要评估指标包括 最终平均回报 (FAR)、后向迁移 (BWT)（衡量遗忘程度）和 前向迁移（衡量可塑性）。
实验结果表明，CRL-VLA 在抗遗忘和前向适应方面均优于基线算法，有效协调了稳定性与可塑性的冲突。