一眼看懂
封面预览
本文是一篇关于生成式 AI 持续学习的综述,涵盖了 大语言模型、多模态大语言模型、视觉-语言-动作模型 和 扩散模型。
- 本文是一篇关于生成式 AI 持续学习的综述,涵盖了 大语言模型、多模态大语言模型、视觉-语言-动作模型 和 扩散模型。
- 论文旨在解决生成式 AI 在适应新任务时面临的 灾难性遗忘 问题,即模型在学习新知识时会覆盖或干扰旧知识。
- 研究对比了生成式模型与判别式模型在持续学习上的差异,指出生成式模型面临更复杂的建模目标和更多样的任务格式挑战。
Card 01
研究单位
研究单位
- 中国科学院大学 (University of Chinese Academy of Sciences)
- 中国科学院自动化研究所 (Institute of Automation, Chinese Academy of Sciences)
- 中国科学院香港创新研究院人工智能与机器人中心 (Centre for Artificial Intelligence and Robotics, Hong Kong Institute of Science and Innovation, Chinese Academy of Sciences)
- 厦门理工学院计算机与信息工程学院 (School of Computer and Information Engineering, Xiamen University of Technology)
Card 02
论文概述
论文概述
- 本文是一篇关于生成式 AI 持续学习的综述,涵盖了 大语言模型、多模态大语言模型、视觉-语言-动作模型 和 扩散模型。
- 论文旨在解决生成式 AI 在适应新任务时面临的 灾难性遗忘 问题,即模型在学习新知识时会覆盖或干扰旧知识。
- 研究对比了生成式模型与判别式模型在持续学习上的差异,指出生成式模型面临更复杂的建模目标和更多样的任务格式挑战。
Card 03
核心贡献
核心贡献
- 提出了一种受人类大脑记忆机制启发的持续学习方法分类体系,将现有方法系统性地分为 架构驱动、正则化驱动 和 回放驱动 三类。
- 全面梳理了四种主流生成式模型的持续学习设置,包括训练目标、基准测试和核心骨干网络。
- 深入分析了生成式模型持续学习的独特挑战,如需要在开放生成空间中保持语义连贯性和知识完整性。
- 建立了一个持续更新的 GitHub 项目页面,汇总了相关文献和资源。
Card 04
方法描述
方法描述
- 架构驱动方法:模仿大脑的模块化组织,通过动态网络扩展或模块化设计(如 LoRA、Prompt)隔离任务特定知识,冻结旧参数并训练新子模块。
- 正则化驱动方法:模仿新皮层突触稳定性,通过约束关键参数(如 正交正则化)或特征表示(如 知识蒸馏)来保留已学习的表示。
- 回放驱动方法:复制海马体记忆回放机制,通过存储少量原始数据或生成合成样本来重放过去经验,减轻遗忘。
- 针对生成式模型的特性,详细讨论了指令微调、持续预训练等不同场景下的具体技术实现。
Card 05
数据集与资源
数据集与资源
- 主要数据集/基准:Short-sequence CL、Long-sequence CL、SuperNI、TRACE。
- 模型骨干:GPT-2、LLaMA (系列)、T5、BERT、Mistral、Vicuna 等。
- 项目资源:提供了 GitHub 链接
https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models用于跟踪最新进展。
Card 06
评估与结果
评估与结果
- 评估指标:提出了三个维度的评估指标,包括整体性能(Last Accuracy、Average Accuracy)、遗忘评估(Forgetting Measure (FM)、Backward Transfer (BWT))和泛化能力(Zero-shot Transfer (ZT))。
- 评估设置:模型在完成当前任务训练后,需在所有已见任务的测试集上进行评估,且无法获知当前输入的任务身份。
- 结果分析:论文分析了不同方法在保留通用能力、指令遵循能力和安全性方面的表现差异,并指出了生成式模型在维持开放生成空间语义一致性上的评估难点。