返回列表 VLA / Vision-Language-Action 每日论文卡

Continual Learning for Generative AI: From LLMs to MLLMs and Beyond

论文详情

Continual Learning for Generative AI: From LLMs to MLLMs and Beyond

2025-06-16 · 原文 · 翻译 · 2506.13045

本文是一篇关于生成式 AI 持续学习的综述,涵盖了 大语言模型、多模态大语言模型、视觉-语言-动作模型 和 扩散模型。 论文旨在解决生成式 AI 在适应新任务时面临的 灾难性遗忘 问题,即模型在学习新知识时会覆盖或干扰旧知识。 研究对比了生成式模型与判别式模型在持续学习上的差异,指出生成式模型面临更复杂的建模目标和更多样的任务格式挑战。

6 分钟读完 6 张阅读卡 中国科学院大学 (University of Chinese Academy of Sciences)
一眼看懂 封面预览

本文是一篇关于生成式 AI 持续学习的综述,涵盖了 大语言模型、多模态大语言模型、视觉-语言-动作模型 和 扩散模型。

  • 本文是一篇关于生成式 AI 持续学习的综述,涵盖了 大语言模型、多模态大语言模型、视觉-语言-动作模型 和 扩散模型。
  • 论文旨在解决生成式 AI 在适应新任务时面临的 灾难性遗忘 问题,即模型在学习新知识时会覆盖或干扰旧知识。
  • 研究对比了生成式模型与判别式模型在持续学习上的差异,指出生成式模型面临更复杂的建模目标和更多样的任务格式挑战。
Card 01 研究单位

研究单位

  • 中国科学院大学 (University of Chinese Academy of Sciences)
  • 中国科学院自动化研究所 (Institute of Automation, Chinese Academy of Sciences)
  • 中国科学院香港创新研究院人工智能与机器人中心 (Centre for Artificial Intelligence and Robotics, Hong Kong Institute of Science and Innovation, Chinese Academy of Sciences)
  • 厦门理工学院计算机与信息工程学院 (School of Computer and Information Engineering, Xiamen University of Technology)
Card 02 论文概述

论文概述

  • 本文是一篇关于生成式 AI 持续学习的综述,涵盖了 大语言模型多模态大语言模型视觉-语言-动作模型扩散模型
  • 论文旨在解决生成式 AI 在适应新任务时面临的 灾难性遗忘 问题,即模型在学习新知识时会覆盖或干扰旧知识。
  • 研究对比了生成式模型与判别式模型在持续学习上的差异,指出生成式模型面临更复杂的建模目标和更多样的任务格式挑战。
Card 03 核心贡献

核心贡献

  • 提出了一种受人类大脑记忆机制启发的持续学习方法分类体系,将现有方法系统性地分为 架构驱动正则化驱动回放驱动 三类。
  • 全面梳理了四种主流生成式模型的持续学习设置,包括训练目标、基准测试和核心骨干网络。
  • 深入分析了生成式模型持续学习的独特挑战,如需要在开放生成空间中保持语义连贯性和知识完整性。
  • 建立了一个持续更新的 GitHub 项目页面,汇总了相关文献和资源。
Card 04 方法描述

方法描述

  • 架构驱动方法:模仿大脑的模块化组织,通过动态网络扩展或模块化设计(如 LoRAPrompt)隔离任务特定知识,冻结旧参数并训练新子模块。
  • 正则化驱动方法:模仿新皮层突触稳定性,通过约束关键参数(如 正交正则化)或特征表示(如 知识蒸馏)来保留已学习的表示。
  • 回放驱动方法:复制海马体记忆回放机制,通过存储少量原始数据或生成合成样本来重放过去经验,减轻遗忘。
  • 针对生成式模型的特性,详细讨论了指令微调、持续预训练等不同场景下的具体技术实现。
Card 05 数据集与资源

数据集与资源

  • 主要数据集/基准Short-sequence CLLong-sequence CLSuperNITRACE
  • 模型骨干GPT-2LLaMA (系列)、T5BERTMistralVicuna 等。
  • 项目资源:提供了 GitHub 链接 https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models 用于跟踪最新进展。
Card 06 评估与结果

评估与结果

  • 评估指标:提出了三个维度的评估指标,包括整体性能(Last AccuracyAverage Accuracy)、遗忘评估(Forgetting Measure (FM)Backward Transfer (BWT))和泛化能力(Zero-shot Transfer (ZT))。
  • 评估设置:模型在完成当前任务训练后,需在所有已见任务的测试集上进行评估,且无法获知当前输入的任务身份。
  • 结果分析:论文分析了不同方法在保留通用能力、指令遵循能力和安全性方面的表现差异,并指出了生成式模型在维持开放生成空间语义一致性上的评估难点。