
Unlearning
文章平均质量分 66
主要整理了LLM中Unlearning相关文章。专栏中主要是摘要和结论的相关翻译,至于全文的翻译后续会更新,订阅时请注意,如需要可私信催更!!!
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Erasing Without Remembering: Safeguarding Knowledge Forgetting in Large Language Models
在本文中,我们从一个全新的维度探索机器遗忘(machine unlearning),研究如何在大语言模型(LLMs)中保障模型的遗忘能力。我们的目标是防止已遗忘特定知识的模型回忆起任何与目标知识相关的记忆。我们首先揭示了一个看似简单却被忽视的事实:现有方法通常仅删除目标知识的精确表述,而保留了其释义或相关信息。为了严格衡量这些疏忽,我们引入了UGBENCH,这是首个专为评估13种最先进方法的泛化性能而设计的基准测试。UGBENCH表明,已遗忘特定知识的模型仍能回忆起释义后的答案,并在中间层保留目标事实。原创 2025-03-14 09:30:00 · 31 阅读 · 0 评论 -
Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks
大语言模型(LLMs)已成为现代自然语言处理的支柱,但它存在泄露敏感训练数据的隐私问题。成员推理攻击(MIAs)旨在推断某个样本是否包含在模型的训练数据集中,可能引发更广泛的隐私威胁。现有的针对传统分类模型的防御方法没有考虑文本数据的序列特性,因此,它们要么需要大量的计算资源,要么无法有效降低大语言模型中的隐私风险。在这项研究中,我们提出了一种轻量级且有效的经验隐私防御方法,通过利用大语言模型中token的特定特征来保护语言模型的训练数据。原创 2025-03-07 09:30:00 · 102 阅读 · 0 评论 -
A CLOSER LOOK AT MACHINE UNLEARNING FOR LARGE LANGUAGE MODELS
大型语言模型 (LLM) 可能会记住敏感或受版权保护的内容,从而引发隐私和法律问题。由于从头开始重新训练的成本很高,研究人员尝试使用机器遗忘学习从 LLM 中删除特定内容,同时保持整体性能。在本文中,我们讨论了 LLM 机器学习中的几个问题,并提供了我们对可能方法的见解。为了解决忘却后模型输出评估不充分的问题,我们引入了三个额外的指标来评估标记多样性、句子语义和事实正确性。然后,我们将忘却方法分为 untargeted 和 targeted,并分别讨论它们的问题。原创 2024-11-11 09:15:00 · 155 阅读 · 0 评论 -
Offset Unlearning for Large Language Models
尽管大型语言模型 (LLM) 具有从其训练语料库中获取知识的强大能力,但对语料库中敏感信息的记忆(例如受版权保护、有害和私人内容)导致了道德和法律问题。为了应对这些挑战,遗忘已成为受有问题训练数据影响的 LLM 的潜在补救措施。但是,由于需要访问模型内部权重,以前的遗忘技术要么不适用于黑盒 LLM,要么通过保留敏感数据进行推理时间校正而违反了数据保护原则。我们提出了 δ-UNLEARNING,一个用于黑盒 LLM 的偏移遗忘学习框架。原创 2024-09-13 16:32:49 · 221 阅读 · 0 评论 -
Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge
越狱攻击可以使大型语言模型 (LLM) 绕过保护措施并生成有害内容。现有的越狱防御方法未能解决模型中存在有害知识的基本问题,从而导致 LLM 面临潜在的越狱风险。在本文中,我们提出了一种名为 Eraser 的新型防御方法,主要包括三个目标:忘掉有害知识、保留常识和保持安全对齐。直觉是,如果 LLM 忘记了回答有害问题所需的特定知识,它将不再有能力回答有害问题。Erase 的训练实际上并不需要模型自身的有害知识,它可以从忘记与有害查询相关的一般答案中受益,这意味着它不需要红队的帮助。原创 2024-09-05 09:54:51 · 133 阅读 · 0 评论 -
Digital Forgetting in Large Language Models: A Survey of Unlearning Methods
本文是LLM系列文章,针对《Digital Forgetting in Large Language Models: A Survey of Unlearning Methods》的翻译。原创 2024-07-20 23:50:30 · 413 阅读 · 0 评论 -
Towards Efficient and Effective Unlearning of Large Language Models for Recommendation
大型语言模型(LLM)的显著进步带来了一个很有前途的研究方向,即利用LLM作为推荐器(LLMRec)。LLMRec的功效源于LLM固有的开放世界知识和推理能力。LLMRec通过基于用户交互数据的指令调优来获得推荐能力。然而,为了保护用户隐私和优化效用,LLMRec故意忘记特定的用户数据也是至关重要的,这通常被称为建议遗忘。在LLM时代,建议遗忘给LLMRec带来了低效率和无效性方面的新挑战。现有的遗忘方法需要更新LLMRec中的数十亿个参数,这既昂贵又耗时。此外,在遗忘过程中,它们总是影响模型的实用性。原创 2024-07-02 20:44:57 · 130 阅读 · 0 评论 -
The Frontier of Data Erasure: Machine Unlearning for Large Language Models
大型语言模型(LLM)是人工智能进步的基础,有助于预测文本生成等应用。尽管如此,它们可能会从其庞大的数据集中记忆和传播敏感、有偏见或受版权保护的信息,从而带来风险。机器遗忘是缓解这些问题的前沿解决方案,为LLM提供了选择性丢弃某些数据的技术。本文回顾了LLM机器遗忘的最新进展,介绍了有针对性地遗忘信息的方法,以解决隐私、道德和法律挑战,而无需进行全面的模型再培训。它将现有研究分为非结构化/文本数据和结构化/分类数据,展示了这些方法在去除特定数据的同时保持模型有效性的有效性。原创 2024-06-29 12:20:27 · 79 阅读 · 0 评论 -
Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models
随着大型语言模型(LLM)的快速发展,我们见证了ChatGPT、LLaMa和Gemini等主要LLM产品之间的激烈竞争。然而,训练语料库的各种问题(如隐私泄露和侵犯版权)仍然没有得到充分的研究。例如,《泰晤士报》起诉OpenAI和微软使用其数百万篇文章进行训练侵犯了其版权。从LLM从业者的角度来看,处理此类非故意侵犯隐私的行为可能具有挑战性。先前的工作解决了使用梯度信息的LLM的“遗忘”问题,但它们大多引入了大量的开销,如数据预处理或缺乏稳健性。原创 2024-06-21 10:30:52 · 121 阅读 · 0 评论 -
RETHINKING MACHINE UNLEARNING FOR LARGE LANGUAGE MODELS
我们在大型语言模型(LLM)领域中探索机器遗忘(MU),称为LLM遗忘。这一举措旨在消除不希望的数据影响(如敏感或非法信息)和相关的模型能力,同时保持基本知识生成的完整性,不影响因果无关的信息。我们设想LLM学习将成为LLM生命周期管理的一个关键要素,有可能成为开发生成性人工智能的重要基础,该人工智能不仅安全、可靠,而且资源高效,无需全面再训练。我们从概念表述、方法、指标和应用的角度来浏览LLM中的遗忘景观。原创 2024-05-16 10:31:07 · 248 阅读 · 0 评论 -
Towards Safer Large Language Models through Machine Unlearning
大型语言模型(LLM)的快速发展已经证明了其在各个领域的巨大潜力,这归功于其广泛的预训练知识和非凡的可推广性。然而,当遇到有问题的提示时,LLM在生成有害内容方面经常遇到挑战。为了解决这个问题,现有的工作试图实现一种基于梯度上升的方法,以防止LLM产生有害的输出。虽然这些方法可能是有效的,但它们经常影响模型效用对正常提示的响应。为了解决这一差距,我们引入了选择性知识否定学习(SKU),这是一种新的LLM遗忘框架,旨在消除有害知识,同时在正常提示下保持效用。原创 2024-04-19 15:13:19 · 119 阅读 · 0 评论 -
Machine Unlearning of Pre-trained Large Language Models
本研究在大型语言模型(LLM)的背景下探讨了“被遗忘权”的概念。我们探索将机器遗忘作为一种关键解决方案,重点关注预训练的模型——这是一个研究不足的领域。我们的研究为预训练LLM中的机器遗忘描绘了一个全面的框架,包括对七种不同的遗忘方法的批判性分析。通过使用arXiv、books和GitHub中精心策划的数据集进行严格评估,我们建立了一个强大的遗忘性能基准,证明这些方法的计算效率是再训练的105倍以上。我们的结果表明,在分布数据上将梯度上升与梯度下降相结合可以提高超参数的稳健性。原创 2024-03-16 20:11:39 · 133 阅读 · 0 评论