ICLR2025杰出论文揭晓！华人学者闪耀，大模型引领AI前沿！（3篇杰出论文详解）

Sherlock Ma

于 2025-05-15 15:12:18 发布

阅读量1.1k

点赞数 22

分类专栏：大语言模型顶会论文文章标签：深度学习人工智能 ICLR 语言模型大模型强化学习安全

本文链接：https://blog.csdn.net/sherlockMa/article/details/147962564

版权

大语言模型同时被 2 个专栏收录

25 篇文章

订阅专栏

顶会论文

4 篇文章

订阅专栏

1.总结

1. Safety Alignment Should Be Made More Than Just a Few Tokens Deep

作者：普林斯顿大学、Google DeepMind
核心内容：本文指出当前大语言模型（LLM）的安全对齐存在浅层化问题，即仅通过调整前几个输出标记来实现安全行为，容易被简单攻击或微调破坏。研究通过案例分析揭示了浅层对齐的成因及其导致的漏洞，并提出通过深度化对齐增强模型鲁棒性的方法。
创新点：
- 首次系统性地提出“浅层安全对齐”概念，揭示当前对齐方法的局限性。
- 设计数据增强方法实现“深度安全对齐”，显著提升模型对多种攻击的鲁棒性。
- 提出一种新的约束优化目标，有效防止微调攻击破坏模型的安全对齐。

2. Learning Dynamics of LLM Finetuning

作者：不列颠哥伦比亚大学
核心内容：该论文聚焦于大语言模型不同类型微调过程中的学习动态，提出了创新性的研究理论方法：一方面构建学习动态分解框架，将模型参数更新对预测的影响分解为与模型当前预测概率相关的、表示样本间相似性的经验神经切线核以及由损失函数决定的这三个关键项，以此来剖析不同微调算法下模型的学习动态；另一方面针对DPO中负梯度导致的“挤压效应”，提出数据集扩展策略，即在SFT阶段同时使用和训练模型，提升负响应的可能性，减轻DPO阶段的挤压效应，从而优化模型性能。
创新点：
- 提供全新分析视角：打破传统从训练目标等角度分析LLM微调的局限，从学习动态的角度提出统一框架，为理解LLM微调行为提供了新的思考方向。
- 解释多种训练现象：利用该框架对LLM在指令调优和偏好调优过程中出现的“重复现象”“幻觉”“信心衰减”等反直觉现象作出解释，深入挖掘了现象背后的原因。
- 给出有效改进方法：基于分析结果，提出在SFT阶段扩展数据集的简单方法，有效减轻了DPO阶段的挤压效应，提升了模型的对齐性能，且通过实验验证了该方法的有效性。

3. AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models

作者：新加坡国立大学、中国科学技术大学
核心内容：这篇论文提出了一种新的大语言模型知识编辑方法AlphaEdit，采用“定位后编辑”范式，先定位对特定知识点有影响力的参数；在将扰动应用于参数前，将其投影到保留知识的零空间上，通过仅专注更新目标知识，来自动保护原有知识。
创新点：
- 引入随机投影层，增加了模型中不同块输出的多样性，提升了模型学习节点关系的能力，且避免了传统方法计算相似度矩阵时的高空间复杂性。
- 频域处理时间序列，通过在频域处理时间序列，有效捕获时间序列中的周期性特征，提升模型的时序建模能力。
- 利用神经网络集成行为，通过恒等映射残差连接，使网络内每个独立块类似集成模型中的基础学习者，增强模型性能。

ICLR 2025的杰出论文在实际应用中具有深远的影响，尤其是在大语言模型的安全性、性能优化和知识编辑方面。这些研究成果能够直接或间接地推动人工智能技术在多个领域的进步，这些研究成果能够提升模型的安全性、性能和适应性，同时推动人工智能技术在更多领域的应用和发展。

接下来我们对每篇论文的内容进行详细解读。

LEARNING DYNAMICS OF LLM FINETUNING

github地址：https://github.com/Joshua-Ren/Learning_dynamics_LLM

论文地址：Learning Dynamics of LLM Finetuning | OpenReview

简介

目前，LLM的微调方法多种多样，包括监督微调（Supervised Finetuning, SFT）、直接偏好优化（Direct Preference Optimization, DPO）及其变体，甚至基于强化学习的方法（如PPO）。这些方法的目标不同，有的旨在提高模型对特定任务的适应性，有的则关注于使模型的输出更符合人类偏好。大多数现有研究主要从训练目标、训练结束时的状态或与强化学习的关系等角度来分析LLM的微调。然而，这些分析方法往往无法全面解释微调过程中的动态变化，尤其是对于偏好微调中出现的反直觉现象（如DPO中所有输出的概率都逐渐降低）。因此，需要一种新的分析框架，从动态的角度来理解LLM在微调过程中的行为变化。

文章深入研究了大型语言模型（LLM）在不同微调（finetuning）过程中的学习动态，通过分析不同潜在响应之间影响积累的逐步分解，提供了一个统一的框架来解释多种流行算法在指令微调和偏好微调中的行为。研究提出了一个假设，解释了为什么特定类型的幻觉（hallucination）在微调后会增强，例如模型可能会使用回答问题B的短语或事实来回答问题A，或者在生成回答时重复类似的简单短语。此外，文章还扩展了框架，强调了一个独特的“挤压效应”（squeezing effect），以解释在离线直接偏好优化（DPO）中观察到的现象，即DPO运行时间过长会使期望的输出变得不那么可能。这一框架不仅为理解LLM的微调提供了新的视角，还启发了一种简单而有效的方法来提高对齐性能。

学习动态

学习动态描述了模型参数的变化如何影响模型预测的变化。它关注的是模型在学习特定训练样本时，对其他样本预测的影响。具体来说，当模型通过梯度下降（GD）更新参数时，学习动态关注的是参数更新（ $\Delta \theta$ ）与预测变化（ $\Delta f_\theta$ ）之间的关系。

数学上，这种关系可以表示为： $\Delta \theta \triangleq \theta^{t+1} - \theta^t = -\eta \cdot \nabla \mathcal{L}\left(f_\theta(\mathbf{x}_u), \mathbf{y}_u\right)$ 和 $\quad \Delta f(\mathbf{x}_o) \triangleq f_{\theta^{t+1}}(\mathbf{x}_o) - f_{\theta^t}(\mathbf{x}_o)$ ，其中，η 是学习率，( $x_u$ , $y_u$ ) 是用于更新的样本对， $x_o$ 是观察样本。

如何量化微调过程中模型预测的变化

将 LLM 微调的学习动态分解为三个部分：适应矩阵（ $A_t$ ）、经验神经切线核（ $K_t$ ）和梯度项（ $G_t$ ）。这种分解允许对不同微调算法进行统一解释。

适应矩阵 At(xo)：与模型在 $x_o$ 上的当前预测概率有关。
经验神经切线核 Kt(xo,xu)：表示模型对 $x_o$ 和 $x_u$ 之间的相似性测量。
残差项 Gt(xu,yu)：由损失函数决定，提供模型适应的方向和能量。

具体公式为： $\Delta \log \pi^t(\mathbf{y} \mid \mathbf{x}_o) \triangleq \log \pi_{\theta^{t+1}}(\mathbf{y} \mid \mathbf{x}_o) - \log \pi_{\theta^t}(\mathbf{y} \mid \mathbf{x}_o),$

MNIST实验

为了更好地理解学习动态，作者通过一个MNIST实验进行了演示。实验中，模型使用一个训练样本 ( $x_u$ , $y_u$ )来更新参数，并观察模型对其他样本 $x_o$ 的预测变化。

适应向量的创建：当模型使用( $x_u$ , $y_u$ )更新参数时，会创建一个适应向量，影响模型对其他样本的预测。
每步变化：对于与 $x_u$ 相同类别的样本 $x_o$ ，模型对其正确标签的预测概率会增加；对于不同类别但相似的样本，模型可能会错误地增加对 $x_u$ 类别的预测概率。
累积影响：随着时间的推移，这些每步的影响会累积，形成复杂的预测模式。例如，模型可能会在某些类别之间形成“偏好”，导致某些类别的预测概率异常增加。

通过MNIST实验，作者观察到以下现象：

相似样本的影响：当 $x_o$ 与 $x_u$ 相似时，即使它们属于不同类别，模型对 $x_o$ 的预测也会受到 $x_u$ 的影响。
全局“推下”压力：随着训练的进行，模型对所有非目标响应的预测概率都会逐渐降低，因为模型的预测概率总和必须为1。
特定幻觉现象的解释：模型可能会将其他问题的答案（如 $y_j=u$ ）用于当前问题 $x_u$ ，这种现象在微调后可能会被放大。

压缩效应

监督微调（SFT）的学习动态

监督微调（Supervised Finetuning, SFT）是大型语言模型（LLM）微调中常用的一种方法，其目标是通过最小化负对数似然（Negative Log Likelihood, NLL）损失来优化模型的输出，使其更符合给定的训练数据。在SFT中，模型学习从输入提示（prompt）生成特定的目标响应（response），这一过程涉及到模型参数的逐步更新，从而影响其对其他输入的预测。

在SFT过程中，模型的参数更新是基于梯度下降（Gradient Descent, GD）的。每次更新都会根据一个训练样本对（xu,yu）计算损失，并调整模型参数以减少该损失。这种更新不仅影响模型对当前样本的预测，还会通过学习动态影响其对其他样本的预测。具体来说，学习动态描述了模型参数的变化（Δθ）如何导致模型预测的变化（Δfθ）。

在SFT过程中，模型学习目标响应 $y_u$ 时，会对其他响应产生间接影响。具体来说：

“拉起”效应：当模型学习目标响应 $y_u$ 时，它会直接增加对 $y_u$ 的置信度。由于模型的预测概率分布的相似性，与 $y_u$ 相似的响应也会受到一定的“拉起”效应，即它们的置信度会略有增加。这种效应在训练初期尤为明显，因为此时模型的预测概率分布尚未完全收敛。
“推下”效应：随着训练的进行，模型对 $y_u$ 的置信度不断增加，导致对其他响应的置信度逐渐下降。这是因为模型的预测概率总和必须为1，增加对 $y_u$ 的预测置信度会导致对其他响应的预测置信度下降。这种效应在训练后期尤为明显，因为此时模型的预测概率分布已经较为稳定。

在SFT过程中，某些类型的幻觉现象可能会被放大。例如，模型可能会使用其他问题的答案来回答当前问题，或者在生成回答时重复类似的简单短语。这些现象可以通过学习动态来解释：

幻觉现象的产生：当模型学习目标响应 $y_u$ 时，它可能会将其他问题的响应 $y_j=u$ 用于当前问题 $x_u$ 。这是因为这些响应在模型的预测概率分布中具有较高的相似性，从而受到一定的“拉起”效应。随着训练的进行，这种效应可能会逐渐增强，导致模型生成幻觉现象。
幻觉现象的放大：在SFT过程中，模型对目标响应 yu 的置信度不断增加，导致对其他响应的置信度逐渐下降。这种“推下”效应可能会进一步放大幻觉现象，因为模型可能会更倾向于生成那些在训练数据中出现过的响应，而不是生成新的、符合当前问题的回答。

总的来说，监督微调（SFT）的学习动态表现为模型在学习目标响应时，通过“拉起”效应增加对目标响应的置信度，同时通过“推下”效应降低对其他响应的置信度，这种动态可能导致模型过度依赖训练数据中的特定模式，从而产生幻觉现象，例如使用其他问题的答案来回答当前问题，或者重复生成训练数据中常见的短语。

直接偏好优化（DPO）的学习动态

直接偏好优化（Direct Preference Optimization, DPO）是一种用于微调大型语言模型（LLM）的偏好学习算法，旨在使模型的输出更符合人类偏好。DPO通过对比学习的方式，优化模型的输出，使其更倾向于生成人类偏好的响应，同时避免生成不受欢迎的响应。DPO的学习动态涉及正向和负向压力的施加，这些压力共同作用于模型的预测分布，从而影响其对不同响应的置信度。

DPO的核心思想是通过对比学习来优化模型的输出。具体来说，DPO使用一对响应 y+u 和 y−u，其中 y+u 是人类偏好的响应，而 y−u 是不受欢迎的响应。DPO的目标是通过优化模型的输出，使其更倾向于生成 y+u 而避免生成 y−u。这一过程涉及到模型参数的逐步更新，从而影响其对不同响应的预测。

在DPO过程中，模型对目标响应 y+u 施加正向压力，以增加其置信度，同时对非目标响应 y−u 施加负向压力，以降低其置信度。这种正负压力的施加导致了以下现象：

正向压力的影响：模型对 y+u 的置信度会逐渐增加，但这种增加通常不如SFT中对目标响应的增加明显。这是因为DPO同时施加了负向压力，导致整体置信度的变化受到一定的限制。
负向压力的影响：模型对 y−u 的置信度会显著下降，这种下降不仅影响 y−u 本身，还会通过模型的预测分布影响其他响应。特别是，当负向压力施加在模型预测的低置信度区域时，会导致“挤压效应”（squeezing effect），即模型将概率质量从低置信度区域转移到高置信度区域。

挤压效应是DPO学习动态中的一个关键现象，它描述了当负向压力施加在模型预测的低置信度区域时，模型的预测分布会发生显著变化。具体来说：

置信度的重新分配：负向压力会导致模型对 y−u 的置信度下降，同时将概率质量“挤压”到最可能的响应上。这导致模型对几乎所有响应的置信度下降，而对最可能的响应的置信度显著增加。
峰值效应：当模型的预测分布非常尖锐时，挤压效应会更加明显。这是因为概率质量更容易集中到最可能的响应上，导致模型的预测分布变得更加尖锐。
对齐问题：这种效应可能会损害模型的对齐性能，因为它可能导致模型生成重复的短语或不符合人类偏好的输出。例如，模型可能会更倾向于生成那些在训练数据中出现过的响应，而不是生成新的、符合当前问题的回答。

总的来说，在DPO阶段，模型通过施加正负梯度来优化首选和非首选响应之间的差距。然而，当负梯度作用于模型预测中已经较低的非首选响应时，会导致模型对所有响应的信心普遍下降，这种现象被称为“挤压效应”。挤压效应会使模型的预测分布变得更加尖锐（peaky），导致模型生成的响应更加单一和重复，从而影响模型的多样性和对齐性能。

缓解挤压效应的方法

缓解挤压效应的方法是通过在监督微调（SFT）阶段扩展训练数据集来实现的。这种方法的核心思想是在SFT阶段同时训练模型对目标响应 y+u 和非目标响应 y−u 的预测，从而“拉起” y−u 的置信度，避免在后续的直接偏好优化（DPO）阶段对 y−u 施加过大的负向压力。

实现步骤

准备一个包含首选响应和非首选响应的数据集。每个样本包含一个提示（prompt）和两个响应：首选响应 $y_u^+$ 和非首选响应 $y_u^-$ 。

在SFT阶段，同时使用首选响应和非首选响应来训练模型。具体来说，对于每个提示 xu，模型需要学习生成 $y_u^+$ 和 $y_u^-$ （也就是DPO的正例和负例）。损失函数可以设计为同时优化这两个目标。例如，可以使用加权的负对数似然损失： $L_{\text{SFT}}(x_u, y_u^+, y_u^-) = -\alpha \sum_{l=1}^{L} \log \pi(y = y_l^+ | y_{<l}^+, x_u) - \beta \sum_{l=1}^{L} \log \pi(y = y_l^- | y_{<l}^-, x_u)$ ，其中，α 和 β 是权重参数，用于平衡首选响应和非首选响应的训练强度。
在SFT阶段完成后，进入DPO阶段。DPO阶段的目标是进一步优化模型，使其更符合人类偏好。

关键细节

正常的SFT损失函数是：

而在本文中，提出的SFT的损失函数为：

在标准的SFT阶段，模型通常只使用正例（ $y_u^+$ ）进行训练，以增加模型对目标响应的置信度。然而，这种方法会导致负例（ $y_u^-$ ）的置信度较低。在后续的DPO阶段，对非首选响应施加负梯度时，由于其置信度较低，会导致严重的“挤压效应”，即将概率质量从低置信度区域转移到高置信度区域。这种效应会导致模型对几乎所有响应的置信度下降，而对最可能的响应的置信度显著增加，从而损害模型的对齐性能。

实际上这篇文章是对正例( $y_u^+$ )和负例( $y_u^-$ )同时做SFT微调，即在SFT阶段预先“拉高”负例( $y_u^-$ )的预测分布，使其在DPO阶段不会处于过低的置信度区域。这样，负梯度在DPO阶段施加时，不会导致严重的“挤压效应”，从而减少对模型预测的负面影响。这样可以减少在DPO阶段负梯度对模型预测的负面影响。通过同时训练模型对首选响应和非首选响应的预测，可以使得模型在DPO阶段对非首选响应的预测分布更加平滑，从而减少挤压效应。

简单来说，文章提出的解决方法主要是对SFT（监督微调）阶段进行了修改，而没有改变DPO（直接偏好优化）阶段的核心损失函数。具体来说，这种方法通过扩展SFT阶段的训练数据集，同时训练模型对正例和负例的预测，从而缓解DPO阶段出现的“挤压效应”（squeezing effect）。

为了验证这种方法的有效性，作者进行了实验，比较了标准SFT-then-DPO流程和扩展训练数据集方法的性能。实验结果表明，扩展训练数据集的方法在DPO阶段的性能优于标准方法。具体来说，扩展训练数据集的方法在DPO阶段的置信度衰减速度更慢，且对所有响应的置信度下降幅度更小。这表明该方法成功地缓解了挤压效应，提高了模型的对齐性能。

总结

文章通过分析LLM在SFT和DPO微调过程中的学习动态，揭示了“挤压效应”的存在及其对模型对齐性能的负面影响。通过在SFT阶段同时对正例和负例进行微调，可以有效缓解这一效应，提高模型的对齐性能。这种方法不仅为理解LLM的微调提供了新的视角，还为改进微调算法提供了理论支持。

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

github地址：https://github.com/Unispac/shallow-vs-deep-alignment

论文地址：[2406.05946] Safety Alignment Should Be Made More Than Just a Few Tokens Deep

简介

本文深入探讨了当前大型语言模型（LLMs）的安全对齐问题，指出其存在“浅层安全对齐”的漏洞，并提出了相应的改进策略。浅层安全对齐是指模型仅通过调整最初几个输出标记来实现安全响应，这种方式容易被简单攻击或微调所突破。研究者通过案例分析揭示了浅层安全对齐的成因及危害，展示了其与多种已知漏洞（如对抗性后缀攻击、预填充攻击等）的关联。为解决这一问题，文章提出通过数据增强方法深化安全对齐效果，并设计了一种约束优化目标，限制初始标记的更新，以增强模型对微调攻击的抵抗力。实验结果表明，这些方法能有效提升模型的鲁棒性，为未来安全对齐研究提供了新的方向，强调了安全对齐应超越仅关注少数标记的层面，以实现更深层次的安全保障。

浅层安全对齐

浅层安全对齐是指模型的安全对齐主要集中在输出的前几个标记（tokens）上，通过调整这些标记的生成分布来实现基本的拒绝响应，而对后续标记的控制较弱。这种对齐方式虽然在预部署测试或标准工作流程中可能看起来安全，但一旦模型的初始输出标记偏离常规安全前缀，其生成内容可能会迅速转向有害轨迹。

简单拒绝前缀的作用：许多安全对齐的语言模型在面对有害指令时，会以“我不能”、“我道歉”等简单拒绝前缀开始响应。这些前缀在模型的安全行为中起着关键作用。而作者在实验中通过在解码过程中预填充这些拒绝前缀，即使是未对齐的模型也能表现出与对齐模型相似的安全性。例如，对于Llama-2-7B和Gemma-7B模型，预填充拒绝前缀后，其有害性率显著降低。通过计算对齐模型与未对齐模型在有害数据上的KL散度，发现KL散度主要集中在前几个标记上，表明当前的安全对齐方法主要利用了这一局部最优解。

安全模式的捷径：当在解码期间预填充拒绝前缀s时，即使未对齐的模型的危害率也会降低

浅层安全对齐带来的安全漏洞

预填充攻击：通过在推理时预填充非拒绝前缀，可以诱导模型生成有害内容。实验表明，随着预填充的有害标记数量增加，模型生成有害内容的可能性迅速上升。
基于优化的攻击：通过优化输入来最大化肯定前缀（如“当然，这里是……”）的生成概率，从而绕过安全对齐。这种攻击利用了浅层安全对齐的特性。
随机采样攻击：通过随机采样和调整解码参数，可以增加获得有害响应的可能性，这也源于浅层安全对齐的效果。
微调攻击：通过在少量有害数据上进行微调，可以迅速破坏模型的安全对齐。分析表明，微调对初始标记的分布影响最大，导致模型在早期标记上的生成分布迅速偏离对齐模型。

总的来说：当前的安全对齐方法主要集中在输出的前几个标记上，即所谓浅层安全对齐，这种对齐方式虽然简单有效，但容易被绕过。而浅层安全对齐是许多已知安全漏洞的根源，包括推理阶段的预填充攻击、优化攻击和随机采样攻击，以及微调阶段的微调攻击。为了提高模型的安全性，未来的安全对齐方法应该致力于将对齐效果扩展到更深的标记层面，以增强模型对各种攻击的鲁棒性。

深层安全对齐

作者指出，当前的安全对齐方法主要集中在模型输出的最初几个标记（tokens）上，这种“浅层安全对齐”虽然可以在预部署测试中表现良好，但在面对复杂的攻击时很容易被绕过。因此，作者提出了“深层安全对齐”的概念，即通过扩展安全对齐的影响范围，使其能够更深入地控制模型的输出，从而提高模型的安全性。

为了实现更深层的安全对齐，作者提出了一种数据增强方法，通过引入“安全恢复示例”来训练模型。这些示例的格式为三元组（有害指令 x，有害回答 h，拒绝回答 r），其中拒绝回答 r 被设计为在模型生成有害内容后能够将其拉回到安全轨道上。

数据集：作者构造了一个包含256个示例的数据集 DH，其中每个示例都包含一个有害指令、一个对应的有害回答和一个拒绝回答。这些示例前半段为有害回答的前缀 h≤k（k 为随机选择的标记数量），后半段为拒绝回答 r。这种设计迫使模型在生成有害内容后能够及时恢复到安全的拒绝状态。

数据集样例：
训练目标：为了实现这一目标，作者设计了一个混合训练目标，将安全恢复示例与原始的对齐数据结合起来。具体公式为：
其中，α 是平衡参数，DB 是用于保持模型效用的良性指令数据集。
- 公式前半部分的目标是训练模型在生成部分有害内容后，能够恢复到安全的拒绝响应。
- 公式后半部分的目标是保持模型在良性任务上的效用，防止模型在安全对齐过程中过度偏向安全性而失去原有的功能。(x′,y′) 是来自良性数据集 DB 的样本，其中 x′ 是良性指令，y′ 是模型在对齐前生成的良性响应。
- 深度安全对齐：通过训练模型在生成部分有害内容后能够恢复到安全的拒绝响应，将安全对齐的效果扩展到更深的标记层面，而不仅仅是前几个标记。通过结合效用保持数据，确保模型在提高安全性的同时，不会显著降低其在良性任务上的性能。

作者通过一系列实验验证了深层安全对齐模型（Llama2-7B-Chat-Augmented）在面对多种攻击时的鲁棒性提升。

对推理时攻击的鲁棒性提升：
- 预填充攻击：通过预填充有害标记来诱导模型生成有害内容。实验结果表明，增强后的模型在预填充攻击下的攻击成功率（ASR）显著降低，例如在预填充5个标记时，ASR从51.5%降至2.9%。
- GCG攻击：一种优化基于的攻击，通过优化后缀字符串来诱导模型生成有害内容。增强后的模型在GCG攻击下的ASR也显著降低，从65.6%降至18.4%。
- 解码参数攻击：通过调整解码参数（如温度、top-k、top-p）来诱导模型生成有害内容。增强后的模型在这种攻击下的ASR从84.3%降至1.0%。
对微调攻击的鲁棒性提升：
- 作者还测试了增强后的模型在面对微调攻击时的表现。虽然增强后的模型在面对恶意微调数据时仍然存在一定的漏洞，但其攻击成功率显著低于原始模型。例如，在“有害示例”攻击中，ASR从88.9%降至4.6%。
效用保持：
- 作者使用AlpacaEval基准测试了增强后模型的效用。结果显示，增强后的模型在效用上仅略有下降，其胜率从51.8%降至49.5%，表明增强后的模型在保持安全性的同时，仍然能够较好地完成良性任务。

论文中提出的方法本质上仍然是监督式微调（Supervised Fine-Tuning, SFT），但通过更改数据集的构建方式，引入了“安全恢复示例”（Safety Recovery Examples），从而实现了深度安全对齐的目标。这种方法的核心在于通过特殊设计的数据增强策略，让模型在生成有害内容的初始部分后，能够恢复到安全的拒绝响应，而不仅仅是依赖于前几个标记的安全性。

保护初始标记以抵御微调攻击

当前的安全对齐方法在微调过程中容易被破坏，主要是因为微调对模型生成分布的初始标记（tokens）产生了较大偏差。因此，作者提出了一种新的微调目标，通过限制初始标记的分布变化，增强模型在微调过程中的安全性。

为了保护初始标记的分布，作者设计了一种新的微调目标，灵感来源于直接偏好优化（DPO）和Kahneman-Tversky优化（KTO）。该目标通过在每个标记位置引入一个参数 βt 来控制分布变化的速度，具体公式如下：

小 βt 的行为：当 βt 很小时，目标近似于标准的交叉熵损失，主要关注最小化生成分布的偏差。
大 βt 的行为：当 βt 很大时，目标会更加强制地将生成分布与初始对齐模型的分布对齐，从而限制初始标记的分布变化。

通过限制初始标记的分布变化，显著增强了模型在微调过程中的安全性。实验结果表明，这种目标不仅能够有效抵御多种微调攻击，还能在保持模型效用的同时，提供额外的安全保护。这一方法为未来在生产环境中实现更安全的微调接口提供了新的思路和工具。

总结

总体而言，本文通过深入分析浅层安全对齐的成因和危害，提出了一种数据增强方法和一种约束优化目标，以实现更深层的安全对齐。这些方法显著提升了模型对多种攻击的鲁棒性，同时保持了模型的效用。研究结果为未来安全对齐方法的发展提供了新的思路和方向，强调了安全对齐需要超越仅关注少数标记的层面，以实现更全面的安全保障。

AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models

代码地址：GitHub - jianghoucheng/AlphaEdit: AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models, ICLR 2025 (Outstanding Paper)

论文地址：[2410.02355] AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models

简介

大型语言模型（LLMs）在预训练过程中能够存储大量知识，并在推理时进行回忆。然而，这些模型常常会产生幻觉（hallucinations），输出错误或过时的信息。为了纠正这些错误，模型编辑方法应运而生，旨在通过少量编辑操作更新模型中的目标知识，同时保留其他知识。然而，现有的编辑方法在更新知识和保留知识之间存在难以平衡的矛盾，尤其是在顺序编辑场景中，模型容易出现遗忘和崩溃的问题。

为了解决这一问题，作者提出了 AlphaEdit，一种新颖的模型编辑方法。AlphaEdit 通过将扰动投影到保留知识的空空间中，确保编辑操作不会破坏模型中已有的知识。具体来说，AlphaEdit 在编辑过程中引入了一个投影矩阵 P，将扰动 Δ 投影到矩阵 K0 的空空间中，从而确保 (W+ΔP)K0=WK0。这一投影操作不仅解决了知识更新和保留之间的矛盾，还显著提高了模型编辑的性能。

自回归语言模型（LLM）的工作原理

自回归语言模型通过利用前序词的上下文信息来预测序列中的下一个词。具体来说，模型在第 l 层的隐藏状态 $h_l$ 可以表示为： $h_l = h_{l-1} + a_l + m_l$ 。其中， $a_l$ 是注意力模块的输出， $m_l$ 是前馈网络（FFN）层的输出。 $W_l^{in}$ 和 $W_l^{out}$ 分别是 FFN 层的输入和输出权重矩阵，σ 是非线性激活函数，γ 表示层归一化。

FFN 层在模型中扮演着关键角色，它将输入的隐藏状态 $h_{l-1} + a_l$ 转换为输出 $m_l$ ： $m_l = W_l^{\text{out}} \sigma(W_l^{\text{in}} \gamma(h_{l-1} + a_l))$ ，这一层可以被视为一种线性关联记忆，将输入的键（key）编码为值（value），用于信息检索。

假设我们有一个知识三元组 ("The latest Olympic Games","was held in","Paris")，我们可以将其编码为：

键 k：编码 ("The latest Olympic Games","was held in")
值 v：编码 "Paris"

在模型中，这些键值对通过 $W_l^{out}$ 进行存储和检索。当模型接收到一个新的输入时，它会通过 $W_l^{in}$ 和 σ 将输入编码为键 k，然后通过 $W_l^{out}$ 检索对应的值 v。这种机制使得模型能够存储和检索知识，从而实现知识编辑。

模型编辑

模型编辑的目标是通过少量编辑操作更新模型中存储的知识，同时保留其他知识。每次编辑通过在模型参数 W 中引入扰动 Δ 来实现。假设需要更新的知识以 (s,r,o) 的形式表示，编辑后的模型参数 W+Δ 应能够将新的键值对 (k,v) 关联起来，其中 k 编码 (s,r)，v 编码 o。

当前的参数修改方法通常遵循“定位-编辑”（locate-then-edit）范式。具体步骤如下：

定位影响参数：通过因果追踪（causal tracing）找到对知识存储有影响的参数 W。
引入扰动：通过优化目标函数来计算扰动 Δ，并将其加到参数 W 上。

编辑的目标是最小化更新知识的输出误差 e1，同时尽量保留原有知识的准确性（e0）。目标函数通常表示为： $\Delta = \arg\min_{\tilde{\Delta}} \left( \left\| (W + \tilde{\Delta}) K_1 - V_1 \right\|^2 + \left\| (W + \tilde{\Delta}) K_0 - V_0 \right\|^2 \right)$ ，其中：

K1 和 V1 是需要更新的知识的键值对矩阵。公式的前半部分表示更新后的模型对新知识的拟合误差。目标是最小化这个误差，使得模型能够正确地学习新的知识。
K0 和 V0 是需要保留的知识的键值对矩阵。公式的后半部分表示更新后的模型对原有知识的保留误差。目标是最小化这个误差，使得模型在更新新知识时不会破坏原有的知识。
∥⋅∥2 表示矩阵的平方和。

通过最小化上述两项的和，找到一个平衡，使得模型在更新新知识的同时，尽量保留原有的知识。假设目标函数的闭式解存在，可以表示为： $\Delta = (V_1 - W K_1) K_1^T \left( K_0 K_0^T + K_1 K_1^T \right)^{-1}$ ，由于直接获取 K0 是困难的，通常通过大量文本输入（如维基百科中的 100,000 个三元组）来估计 K0。

但是当前的编辑方法在平衡知识更新误差 e1 和知识保留误差 e0 时面临挑战。为了优先更新知识，通常会赋予 e1 更大的权重，而对 e0 的控制不足，这可能导致模型过拟合到更新的知识，从而破坏原有的知识分布，导致模型遗忘和模型崩溃。

空空间（Null Space）

空空间（Null Space）的概念

空空间（Null Space）是指矩阵 A 的左零空间，即所有满足 BA=0 的矩阵 B 的集合。在模型编辑的上下文中，如果扰动 Δ 被投影到矩阵 $K_0$ 的空空间中（即 $\Delta' K_0=0$ ），那么将 Δ′ 加到参数 W 上后，模型对保留知识的输出不会改变： $(W + \Delta') K_0 = W K_0 = V_0$ ，这意味着投影后的扰动 Δ′ 不会干扰模型中已有的知识。

在模型编辑中，空空间的利用可以避免编辑操作对保留知识的破坏。具体来说，通过将扰动 Δ 投影到 $K_0$ 的空空间中，可以确保编辑操作仅影响更新的知识，而不影响保留的知识。这使得模型编辑的目标函数可以专注于最小化更新知识的误差 e1，而无需担心对保留知识的干扰。

空空间投影的实现方法

由于 $K_0$ 是一个高维矩阵（例如，包含 100,000 列），直接对其进行投影计算在计算和存储上都面临巨大挑战。因此，作者采用了 $K_0K_0^T$ 的空空间作为替代，因为 $K_0$ 和 $K_0K_0^T$ 共享相同的空空间。

维度问题： $K_0$ 是一个高维矩阵，其维度通常是 d0×100,000，其中 $d_0$ 是 FFN 层的中间维度，而 100,000 是用于估计保留知识的样本数量。直接对 $K_0$ 进行操作（如计算其零空间）在计算和存储上都非常昂贵。
降维：通过计算 $K_0K_0^T$ ，可以将问题从 $d_0$ ×100,000 降维到 $d_0\times d_0$ 。由于 $d_0$ 通常远小于 100,000，这大大减少了计算复杂度和存储需求。

具体步骤如下：

奇异值分解（SVD）：对 $K_0K_0^T$ 进行奇异值分解（SVD）： $\text{SVD}(K_0 K_0^T) = (U, \Lambda, U^T)$ 。其中，U 的每一列是 $K_0K_0^T$ 的特征向量，Λ 是对应的特征值。
选择空空间的基：从 U 中移除对应于非零特征值的特征向量，剩下的子矩阵记为 $\hat{U}$ 。基于此，定义投影矩阵 P 为： $P=\hat{U}\hat{U}^T$ 。这个投影矩阵可以将 Δ 的列向量映射到 $K_0K_0^T$ 的空空间中，从而满足 $\Delta P\cdot K_0K_0^T=0$ 。
验证投影效果：由于 $K_0$ 和 $K_0K_0^T$ 共享相同的空空间，因此有 $\Delta P\cdot K_0=0$ 。这意味着： $(W + \Delta P) K_0 = W K_0 = V_0$ 。这表明，通过投影矩阵 P 处理后的扰动 ΔP 不会干扰模型中已有的知识。

简单来说，在 AlphaEdit 方法中，原来的扰动 Δ 仍然存在，但通过引入投影矩阵 P，将 Δ 投影到矩阵 $K_0$ 的空空间中，从而得到一个新的扰动 ΔP。这个投影操作确保了编辑操作不会破坏模型中已有的知识。

带空空间约束的模型编辑方法

接下来介绍如何将空空间投影方法整合到模型编辑的目标函数中，从而实现一种新的编辑方法——AlphaEdit。这种方法通过投影扰动到保留知识的空空间中，确保编辑操作不会破坏模型中已有的知识，同时专注于最小化更新知识的误差。

在传统的模型编辑方法中，目标函数通常包含两个部分：更新知识的误差 e1 和保留知识的误差 e0。具体形式如下： $\Delta = \arg\min_{\tilde{\Delta}} \left( \left\| (W + \tilde{\Delta}) K_1 - V_1 \right\|^2 + \left\| (W + \tilde{\Delta}) K_0 - V_0 \right\|^2 \right)$ 。其中， $K_1$ 和 $V_1$ 是需要更新的知识的键值对矩阵， $K_0$ 和 $V_0$ 是需要保留的知识的键值对矩阵。
相比之下，AlphaEdit 方法通过将扰动 Δ 投影到 K0 的空空间中，确保编辑操作不会破坏保留知识，也就是不需要误差e0。具体来说，新的目标函数如下： $\Delta = \arg\min_{\tilde{\Delta}} \left( \left\| (W + \tilde{\Delta} P) K_1 - V_1 \right\|^2 \right)$ ，其中，P 是投影矩阵，用于将 Δ 投影到 $K_0$ 的空空间中。通过这种方式，目标函数中不再需要包含保留知识的误差 e0，因为投影操作已经确保了保留知识的完整性。

目标函数的进一步优化：

引入正则化项： $\left\| \tilde{\Delta} P \right\|^2$ ，得到 $\Delta = \arg\min_{\tilde{\Delta}} \left( \left\| (W + \tilde{\Delta} P) K_1 - V_1 \right\|^2 + \left\| \tilde{\Delta} P \right\|^2 \right)$
在顺序编辑任务中，还需要考虑保护之前更新的知识。设 $K_p$ 和 $V_p$ 是之前更新的知识的键值对矩阵，目标函数进一步扩展为： $\Delta = \arg\min_{\tilde{\Delta}} \left( \left\| (W + \tilde{\Delta} P) K_1 - V_1 \right\|^2 + \left\| \tilde{\Delta} P \right\|^2 + \left\| \tilde{\Delta} P K_p \right\|^2 \right)$

通过引入投影矩阵 P，新的目标函数可以简化为： $\Delta = \arg\min_{\tilde{\Delta}} \left( \left\| (W + \tilde{\Delta} P) K_1 - V_1 \right\|^2 + \left\| \tilde{\Delta} P \right\|^2 + \left\| \tilde{\Delta} P K_p \right\|^2 \right)$ ，其中：

K0：保留知识的键值对矩阵。K0 是一个矩阵，表示模型中需要保留的知识的键（key）部分。这些键编码了模型中已有的、不需要被更新的知识。在模型编辑过程中， $K_0$ 用于确保编辑操作不会破坏模型中已有的知识。通过将扰动 Δ 投影到 $K_0$ 的空空间中，可以确保编辑操作不会干扰这些保留的知识。
K1：更新知识的键值对矩阵。 $K_1$ 是一个矩阵，表示模型中需要更新的知识的键（key）部分。这些键编码了模型中需要被更新的知识。在模型编辑过程中， $K_1$ 用于确保编辑操作能够正确地更新目标知识。通过最小化 (W+Δ)K1−V1 的误差，可以确保模型能够输出更新后的知识。
Kp：之前更新知识的键值对矩阵。Kp 是一个矩阵，表示模型中之前已经更新过的知识的键（key）部分。这些键编码了模型在之前的编辑操作中已经更新的知识。在顺序编辑任务中， $K_p$ 用于确保当前编辑操作不会破坏之前已经更新的知识。通过在目标函数中加入 $\left\| \Delta P K_p\right\|^2$ 项，可以确保当前编辑操作不会干扰之前更新的知识。

这个优化问题可以通过求解以下方程得到： $(\Delta P K_1 - R) K_1^T P + \Delta P + \Delta P K_p K_p^T P = 0$ ，其中， $R = V_1 - W K_1$ 是当前编辑的残差向量。最终的解为： $\Delta_{\text{AlphaEdit}} = R K_1^T P \left( K_p K_p^T P + K_1 K_1^T P + I \right)^{-1}$

作者在多个大型语言模型（如 LLaMA3、GPT2-XL 和 GPT-J）上进行了广泛的实验，结果表明，AlphaEdit 能够显著提升现有模型编辑方法的性能，平均性能提升达到 36.7%。此外，AlphaEdit 编辑后的模型在一般能力测试中表现优异，即使在经过大量编辑后，仍能保持与原始模型相当的性能。

总结

AlphaEdit 通过引入空空间投影，有效地解决了模型编辑中的知识更新与保留之间的矛盾，显著提高了模型编辑的性能和稳定性。我们相信，AlphaEdit 将为大型语言模型的高效知识更新提供一种新的解决方案，并推动模型编辑技术的发展。

总结

ICLR 2025的杰出论文涵盖了大语言模型的安全对齐、微调学习动态以及知识编辑等多个关键领域。这些研究不仅揭示了当前大语言模型在安全性和性能优化方面存在的问题，还提出了创新性的解决方案。例如，针对模型安全对齐的浅层化问题，有研究指出仅通过调整前几个输出标记实现的安全对齐容易被攻击破坏，并提出了深度化对齐的方法来增强模型的鲁棒性。在微调方面，研究者们通过构建学习动态分解框架，深入剖析了不同微调算法下模型的学习动态，并针对DPO中的“挤压效应”提出了有效的数据集扩展策略。此外，在知识编辑领域，研究者提出了一种新的“定位后编辑”范式，通过零空间约束的参数更新方法，实现了对目标知识的精准编辑，同时保护了原有知识。这些成果不仅为大语言模型的安全性和性能优化提供了新的思路和方法，也为未来的研究方向指明了道路。

如果你觉得我的内容对你有帮助，或者让你眼前一亮，不妨点个赞、收藏一下，甚至关注我哦！你的每一个点赞和关注，都是对我最大的支持，也是我继续努力的动力！让我们一起在知识的海洋里探索更多有趣的东西，不迷路，不错过每一个精彩瞬间！❤️📚🚀