
Model Forgetting
文章平均质量分 67
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
LoRAMoE: Alleviating World Knowledge Forgetting in Large Language Models via MoE-Style Plugin
监督微调(SFT)是大型语言模型(LLM)的关键步骤,使其能够与人类指令保持一致,并增强其在下游任务中的能力。大幅增加指令数据是使模型与更广泛的下游任务对齐或显著提高其在特定任务上的性能的直接解决方案。然而,我们发现指令数据的大规模增加会破坏以前存储在LLM中的世界知识。为了应对这一挑战,我们提出了LoRAMoE,这是一个新颖的框架,引入了几个低秩适配器(LoRA),并通过使用路由器网络将它们集成在一起,就像混合专家(MoE)的插件版本一样。原创 2024-07-25 10:06:17 · 302 阅读 · 0 评论 -
Simple and Scalable Strategies to Continually Pre-train Large Language Models
大型语言模型(LLM)通常在数十亿个token上进行预训练,只有在新数据可用时才能重新开始这个过程。一个更有效的解决方案是不断地预训练这些模型——与重新训练相比,节省了大量的计算量。然而,由新数据引起的分布偏移通常会导致先前数据的性能下降或对新数据的适应性差。在这项工作中,我们表明,学习率(LR)重新升温、LR重新衰减和先前数据重放的简单且可扩展的组合足以匹配在所有可用数据上从头开始完全重新训练的性能,如通过最终损失和几个语言模型(LM)评估基准的平均分数来衡量的。原创 2024-06-24 16:40:47 · 226 阅读 · 0 评论 -
Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models
随着大型语言模型(LLM)的快速发展,我们见证了ChatGPT、LLaMa和Gemini等主要LLM产品之间的激烈竞争。然而,训练语料库的各种问题(如隐私泄露和侵犯版权)仍然没有得到充分的研究。例如,《泰晤士报》起诉OpenAI和微软使用其数百万篇文章进行训练侵犯了其版权。从LLM从业者的角度来看,处理此类非故意侵犯隐私的行为可能具有挑战性。先前的工作解决了使用梯度信息的LLM的“遗忘”问题,但它们大多引入了大量的开销,如数据预处理或缺乏稳健性。原创 2024-06-21 10:30:52 · 121 阅读 · 0 评论 -
Investigating Forgetting in Pre-Trained Representations Through Continual Learning
表征遗忘是指在持续训练过程中,语境化表征的漂移。直观地说,表征遗忘会影响预先训练的语言模型中存储的一般知识,但具体效果尚不清楚。在本文中,我们研究了表示遗忘对预先训练的语言模型的通用性的影响,即处理未来下游任务的潜在能力。具体来说,我们设计了三个度量标准,包括整体一般性破坏(GD)、句法知识遗忘(SynF)和语义知识遗忘(SemF),来衡量一般知识在持续学习中的演变。通过大量的实验,我们发现在各种预先训练的LMs中,普遍性被破坏,句法和语义知识在不断学习中被遗忘。原创 2024-06-14 18:06:39 · 183 阅读 · 0 评论 -
PRETRAINED LANGUAGE MODEL IN CONTINUAL LEARNING: A COMPARATIVE STUDY
连续学习(CL)是一种设置,在这种设置中,模型从输入数据流中学习,同时避免忘记先前学习的知识。预训练语言模型已经成功地应用于不同自然语言问题的连续学习中。随着许多持续学习方法和PLM的快速发展,理解和理清它们的相互作用对于持续提高持续学习成绩至关重要。在本文中,我们在2个典型的增量设置中,在3个基准上,彻底比较了5种PLM和4种CL方法组合的持续学习性能。我们广泛的实验分析揭示了PLM和CL方法之间有趣的性能差异。原创 2024-06-14 18:00:58 · 79 阅读 · 0 评论 -
Probing Representation Forgetting in Supervised and Unsupervised Continual Learning
持续学习(CL)研究通常侧重于解决神经网络中的灾难性遗忘现象。灾难性遗忘与当任务或更广泛地说是数据分布受到变化训练时,模型先前学习的知识突然丢失有关。在监督学习问题中,这种由模型表示的变化引起的遗忘通常是通过评估旧任务性能的下降来测量或观察的。然而,模型的表示可以在不丢失有关先前任务的知识的情况下进行更改。在这项工作中,我们考虑了表示遗忘的概念,通过使用最佳线性分类器在引入新任务之前和之后的性能差异来观察。原创 2024-06-14 17:18:09 · 88 阅读 · 0 评论 -
Mitigating Catastrophic Forgetting in Task-Incremental Continual Learning
任务增量连续学习是指在克服灾难性遗忘(CF)问题的同时,在一系列任务中不断训练模型。这个问题的出现是因为学习新任务时忘记了学习到的表示,并且破坏了决策边界。以往的研究大多考虑如何恢复学习任务的表征。很少考虑将决策边界调整为新的表示,在本文中,我们提出了一种具有自适应分类标准的监督对比学习框架,用于连续学习(SCCL)。在我们的方法中,使用对比损失来直接学习不同任务的表示,并保存有限数量的数据样本作为分类标准。在推理过程中,将保存的数据样本馈送到当前模型中以获得更新的表示,并使用k个最近邻居模块进行分类。原创 2024-06-14 16:56:54 · 104 阅读 · 0 评论 -
AdaPrompt: Adaptive Model Training for Prompt-based NLP
提示学习以其处理零样本和小样本NLP任务的能力,在社区中受到了广泛关注。其主要思想是通过将NLP下游任务映射到自然语言提示中,然后由预训练的语言模型(PLM)填充,来弥合NLP下游工作与语言建模(LM)之间的差距。然而,对于提示学习,NLP任务和预训练之间仍然存在两个显著的差距。首先,在LM预训练期间,提示信息不一定充分存在。其次,在预训练过程中,任务特定的数据不一定能很好地表示出来。我们通过提出AdaPrompt来解决这两个问题,该方法利用任务和提示特征自适应地检索外部数据,用于PLM的连续预训练。原创 2024-06-14 16:50:23 · 83 阅读 · 0 评论 -
Continual Training of Language Models for Few-Shot Learning
最近关于应用大型语言模型(LM)的工作在许多NLP应用程序中取得了令人印象深刻的性能。使用未标记的领域语料库调整或后训练LM可以为该领域中的最终任务产生更好的性能。本文提出了通过用一系列未标记的领域语料库对LM进行增量后训练来不断扩展LM的问题,以在不忘记其先前技能的情况下扩展其知识。目标是改进这些领域中的小样本末端任务学习。由此产生的系统被称为CPT(持续后训练),据我们所知,这是第一个持续后训练系统。实验结果验证了其有效性。原创 2024-06-14 15:42:20 · 104 阅读 · 0 评论 -
LEARNING TO LEARN WITHOUT FORGETTING BY MAXIMIZING TRANSFER AND MINIMIZING INTERFERENCE
在将神经网络学习扩展到更符合人类实际的环境中时,在数据的非平稳分布上的连续学习方面缺乏性能仍然是一个主要挑战。在这项工作中,我们根据转移和干扰之间的时间对称权衡,提出了连续学习问题的新概念,可以通过在示例之间强制梯度对齐来优化。然后,我们提出了一种新的算法,即元体验回放(MER),通过将体验回放与基于优化的元学习相结合,直接利用这一观点。这种方法学习的参数使基于未来梯度的干扰可能性更小,而基于未来梯度转移的可能性更大。原创 2024-06-14 14:59:42 · 204 阅读 · 0 评论 -
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning
灾难性遗忘(CF)是机器学习中发生的一种现象,当模型在学习新信息时忘记了先前学习的信息。由于大型语言模型(LLM)已经显示出优异的性能,揭示CF是否存在于LLM的持续微调中是很有趣的。在本研究中,我们从领域知识、推理和阅读理解的角度对LLM知识中的遗忘现象进行了实证评估。实验表明,灾难性遗忘通常在1b到7b的LLM中观察到。此外,随着规模的增加,遗忘的严重程度也会加剧。将仅解码器模型BLOOMZ与编码器-解码器模型mT0进行比较,BLOOMZ遭受较少的遗忘并且保持更多的知识。原创 2023-08-23 17:10:19 · 356 阅读 · 0 评论 -
Engineering flexible machine learning systems by traversing functionally-invariant paths
Transformer已经成为用于自然语言处理和计算机视觉的最先进的神经网络架构。在基础模型范式中,大型Transformer模型(BERT、GPT3/4、Bloom、ViT)在单词或图像屏蔽等自我监督任务上进行预训练,然后通过对下游用户应用程序(包括指令跟随和问答)的微调进行调整。虽然已经开发了许多模型微调方法,包括低秩权重更新策略(如LoRA),但对实现网络自适应而不损失知识的基本数学原理仍知之甚少。原创 2024-06-13 16:41:45 · 70 阅读 · 0 评论 -
REMIND Your Neural Network to Prevent Catastrophic Forgetting
人们一生都在学习。然而,逐步更新传统的神经网络会导致灾难性的遗忘。一种常见的治疗方法是重放,它的灵感来自大脑如何巩固记忆。重播涉及在新实例和旧实例的混合上对网络进行微调。虽然有神经科学证据表明大脑会回放压缩的记忆,但现有的卷积网络方法会回放原始图像。在这里,我们提出了REMIND,这是一种受大脑启发的方法,可以使用压缩的表示进行有效的重放。REMIND是以在线方式进行训练的,这意味着它一次学习一个例子,这更接近于人类的学习方式。原创 2024-06-13 16:24:35 · 208 阅读 · 0 评论