Continual Learning for Generative AI: From LLMs to MLLMs and Beyond

论文详情

Continual Learning for Generative AI: From LLMs to MLLMs and Beyond

2025-06-16 · 原文 · 翻译 · 2506.13045

本文是一篇关于生成式 AI 持续学习的综述，涵盖了大语言模型、多模态大语言模型、视觉-语言-动作模型和扩散模型。论文旨在解决生成式 AI 在适应新任务时面临的灾难性遗忘问题，即模型在学习新知识时会覆盖或干扰旧知识。研究对比了生成式模型与判别式模型在持续学习上的差异，指出生成式模型面临更复杂的建模目标和更多样的任务格式挑战。

6 分钟读完 6 张阅读卡中国科学院大学 (University of Chinese Academy of Sciences)

一眼看懂封面预览

本文是一篇关于生成式 AI 持续学习的综述，涵盖了大语言模型、多模态大语言模型、视觉-语言-动作模型和扩散模型。

本文是一篇关于生成式 AI 持续学习的综述，涵盖了大语言模型、多模态大语言模型、视觉-语言-动作模型和扩散模型。
论文旨在解决生成式 AI 在适应新任务时面临的灾难性遗忘问题，即模型在学习新知识时会覆盖或干扰旧知识。
研究对比了生成式模型与判别式模型在持续学习上的差异，指出生成式模型面临更复杂的建模目标和更多样的任务格式挑战。

Card 01 研究单位

研究单位

中国科学院大学 (University of Chinese Academy of Sciences)
中国科学院自动化研究所 (Institute of Automation, Chinese Academy of Sciences)
中国科学院香港创新研究院人工智能与机器人中心 (Centre for Artificial Intelligence and Robotics, Hong Kong Institute of Science and Innovation, Chinese Academy of Sciences)
厦门理工学院计算机与信息工程学院 (School of Computer and Information Engineering, Xiamen University of Technology)

Card 02 论文概述

论文概述

本文是一篇关于生成式 AI 持续学习的综述，涵盖了 大语言模型、多模态大语言模型、视觉-语言-动作模型 和 扩散模型。
论文旨在解决生成式 AI 在适应新任务时面临的 灾难性遗忘 问题，即模型在学习新知识时会覆盖或干扰旧知识。
研究对比了生成式模型与判别式模型在持续学习上的差异，指出生成式模型面临更复杂的建模目标和更多样的任务格式挑战。

Card 03 核心贡献

核心贡献

提出了一种受人类大脑记忆机制启发的持续学习方法分类体系，将现有方法系统性地分为 架构驱动、正则化驱动 和 回放驱动 三类。
全面梳理了四种主流生成式模型的持续学习设置，包括训练目标、基准测试和核心骨干网络。
深入分析了生成式模型持续学习的独特挑战，如需要在开放生成空间中保持语义连贯性和知识完整性。
建立了一个持续更新的 GitHub 项目页面，汇总了相关文献和资源。

Card 04 方法描述

方法描述

架构驱动方法：模仿大脑的模块化组织，通过动态网络扩展或模块化设计（如 LoRA、Prompt）隔离任务特定知识，冻结旧参数并训练新子模块。
正则化驱动方法：模仿新皮层突触稳定性，通过约束关键参数（如 正交正则化）或特征表示（如 知识蒸馏）来保留已学习的表示。
回放驱动方法：复制海马体记忆回放机制，通过存储少量原始数据或生成合成样本来重放过去经验，减轻遗忘。
针对生成式模型的特性，详细讨论了指令微调、持续预训练等不同场景下的具体技术实现。

Card 05 数据集与资源

数据集与资源

主要数据集/基准：Short-sequence CL、Long-sequence CL、SuperNI、TRACE。
模型骨干：GPT-2、LLaMA (系列)、T5、BERT、Mistral、Vicuna 等。
项目资源：提供了 GitHub 链接 https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models 用于跟踪最新进展。

Card 06 评估与结果

评估与结果

评估指标：提出了三个维度的评估指标，包括整体性能（Last Accuracy、Average Accuracy）、遗忘评估（Forgetting Measure (FM)、Backward Transfer (BWT)）和泛化能力（Zero-shot Transfer (ZT)）。
评估设置：模型在完成当前任务训练后，需在所有已见任务的测试集上进行评估，且无法获知当前输入的任务身份。
结果分析：论文分析了不同方法在保留通用能力、指令遵循能力和安全性方面的表现差异，并指出了生成式模型在维持开放生成空间语义一致性上的评估难点。