大模型论文解析(一)模型对齐与安全训练

1. 模型对齐与安全训练

模型对齐(Alignment)是指通过附加训练让大模型的行为符合预期的安全和伦理规范,例如拒绝不当请求、不输出有害内容等。最新的多篇论文均聚焦于如何改进和评估大模型的对齐效果,以及对齐过程可能带来的副作用。

1.1 安全对齐的深度与代价:

Kao等人在2025年2月发表的论文从马尔可夫链理论视角分析了对齐深度对模型安全性的影响。他们提出“安全对齐深度”(Safety Alignment Depth)的概念,指出许多现有对齐仅在模型输出的最初若干 token 上奏效,属于“浅层对齐”,因此容易被后续内容绕过。该工作利用自回归语言模型与马尔可夫链的等价性,首次给出了确定理想对齐深度的理论结果,并证明了一种基于排列的数据增强方法可以收紧对深度的下界估计。他们还发现对齐深度和模型集成宽度之间存在此消彼长的关系:增加模型集成的宽度(例如merge多个模型)可以在一定程度上弥补对齐深度不足的问题。这些理论见解为设计更鲁棒的对齐策略奠定了基础。与此相关,Qi等人(2025年1月,ICLR 2025)也指出当前LLM的安全对齐往往过于浅薄,只影响最初几个输出token,导致简单攻击或无害微调即可“越狱”对齐模型。他们通过案例分析揭示了浅层安全对齐这一共性问题,并将其命名为“Shallow Alignment”,进一步设计了在微调时约束初始tokens更新的正则化方法,使安全对齐在面对后续微调时更持久。这一系列工作强调了加深安全对齐的重要性——即对齐策略不应只顾及模型开头的回应,而应贯穿整个生成过程,以抵御多种绕过手段。此外,Huang等人(2025年3月)关注对齐的代价问题,提出了“安全税”(Safety Tax)的概念。他们研究了推理模型(Large Reasoning Model, LRM)在应用安全对齐后的性能变化,发现安全对齐虽然可以显著提高模型拒绝不良请求的能力,但会显著削弱模型的推理复杂问题的能力。换言之,在他们构建的序贯生产流程中,模型的安全能力和推理能力存在此消彼长的权衡(trade-off)。这一权衡被称为“安全税”,提示未来研究需要在提高安全性和保持模型有用性之间取得更好的平衡。上述研究从不同角度揭示了模型对齐过程中的深层机制和权衡,为改进对齐方法提供了指引。

img

1.2 对齐方法的创新:

为提高对齐效果,研究者提出了多种新方法。“协商式对齐”(Deliberative Alignment)由Guan等人提出。该方法让模型在回答用户问题前,先明确回忆并推理所学的安全规范。他们直接将安全原则教给模型,并训练它在作答前逐条检查相关原则,进行显式的推理判断,再决定输出。实验表明,这种让模型“深思熟虑”遵循安全政策的方式,使模型在遵守复杂安全要求方面显著提升,能同时增强对越狱攻击的鲁棒性和减少过度拒答(不过度地拒绝安全请求)。相比不引入额外思考步骤的对齐方法,协商式对齐推动了安全性和有用性的良好折中,被认为是一种更可伸缩和可解释的对齐范式。

img

Ji等人(2025年2月)提出了推理时对齐的新框架,即不改变模型权重,而是在推理过程中通过形式化约束确保输出安全。他们将安全响应生成建模为LLM隐空间中的约束马尔可夫决策过程(CMDP),引入一个安全状态来跟踪安全约束是否满足,并设计了算法在隐空间中求解该CMDP,从而对每一步输出提供接近100%置信度的安全保证。这一方法名为InferenceGuard,在不需要重新训练模型的情况下,实现了对生成内容的强安全约束,实验证明它在确保回答安全的同时基本不损失任务性能,且优于以往的推理时对齐方法。

img

Djuhera等人(2025年3月)关注模型微调后的安全保持问题。他们指出,即使是无害的数据微调也可能侵蚀预先对齐好的模型的安全性。为此,他们提出SafeMERGE框架:在模型微调完下游任务后,将其权重与原先安全对齐模型的权重逐层选择性融合。融合采用一种余弦相似度判据,仅当微调导致某一层行为偏离安全模型时,才将该层权重部分替换回安全模型,以此保留安全特性。在Llama-2-7B和Qwen-7B等模型上测试表明,SafeMERGE在确保任务性能基本不变甚至略有提升的情况下,大幅减少了有害输出的发生频率,明显优于直接微调和其他已有防御措施。这一结果说明,通过巧妙的后融合策略,可以兼顾模型专用任务能力与通用安全性。

img

总的来说,上述创新方法(显式原则推理、推理时安全控制、层权重融合等)为提升大模型对齐的鲁棒性和有效性提供了新的思路,在实践中显示出优越性能。

1.3 多模态对齐与安全:

随着视觉-语言等多模态大模型的发展,其安全对齐也带来了独特挑战。Lu等人(2025年2月)提出,训练包含图像、音频等模态的多模态大模型(MLLM)安全对齐需要大量跨模态正负样本数据,收集成本高昂。他们发现现有低资源安全对齐方法(仅用文本数据)在应对附加模态的攻击时效果不佳。为此,该团队提出了SEA(Synthetic Embedding Augmented safety Alignment)方法,通过梯度优化附加模态的表示向量,在无需真实图像/音频的情况下生成可用于对齐训练的“合成模态嵌入”。简单来说,就是把额外模态看成可训练参数,用梯度下降找到一种嵌入,使模型把它解释为含有指定有害内容的图像/音频。将这种优化后的嵌入与原有文本安全数据结合训练,即可达到类似使用真实多模态有害数据的对齐效果。实验在图像、视频、音频三种模态的多个MLLM上验证了SEA的有效性:在一张RTX3090上仅24秒即可合成高质量模态嵌入,并显著提升模型抵御附加模态攻击的安全性。此外,作者构建了新基准VA-SafetyBench来评估视频和音频模态引入的安全风险,结果显示多个模型在该基准上的攻击成功率很高,凸显了多模态场景的挑战。

img

img

另一项研究是Rahmatullaev等人(2025年2月)提出的多模态对齐绕过攻击。他们设计了一种通用对抗图像,通过对视觉编码器和语言头反向传播优化,使其可以在不同行为和模型都触发预设的有害回答。换言之,这是一张可以“一图破防”多个模型的对抗图片。实验表明,在SafeBench安全基准上,该图片攻击的成功率远高于以往的文本触发词。更令人担忧的是,他们将此图片在数个多模态模型上联合训练,发现对未见过的模型同样有效,展示了跨模型的迁移攻击能力。下图展示了这一攻击的效果:在没有对抗图片时,模型会遵循对齐策略拒绝提供违法指引;但当加入特定优化过的图片时,同一模型在相同有害请求下却输出了详细的步骤。这一现象暴露出当前多模态模型对齐机制的重大漏洞——单凭一张精心生成的图像即可绕过文本层面的安全约束,诱使模型生成本应被禁止的内容。此发现呼吁研究者尽快提升多模态模型的鲁棒性,并制定更健全的防御措施。

img

图左:模型在无对抗图片时对违法请求进行拒绝,体现了安全对齐策略;右:插入特定优化的对抗图片后,模型被诱导输出了违禁的方法。该结果表明附加模态输入可用于绕过大型语言模型的安全机制。

img

1.4 对齐机制的可解释性分析:

为了深入理解模型的安全对齐机制,一些研究从神经元层面进行了解释和调控。Zhao等人(2025年3月,ICLR 2025)提出利用神经元检测方法来识别模型中的“安全神经元”——即对处理有害查询和防御不当回答起关键作用的神经元。他们发现,在若干主流对齐模型中,仅有不到1%的神经元对安全相关行为有显著贡献,而且这些神经元主要位于模型的自注意力层靠前的位置。这意味着模型的安全响应机制是由极少数专门的神经元协同管理的。据此,作者提出了SN-Tune(安全神经元微调)方法:在不损害模型原有能力的前提下,只调整这极少部分安全神经元的权重,从而增强模型的安全表现。实验结果相当惊人:对Llama3-8B、Mistral-7B、Vicuna-13B等模型应用SN-Tune后,其有害内容生成评分从原先的65.5、70.8、93.5分分别降低到仅2.0、4.5、3.0分(分值越低表示越安全)。这表明通过精细定位并优化安全神经元,可以极大提升模型对指令调优后的安全性。论文还提出了RSN-Tune(鲁棒安全神经元微调),用于在下游任务微调过程中保持安全神经元的独立性,避免其被新的任务训练破坏。

img

Ferrand等人(2025年1月)研究了对齐模型内部的安全分类器。他们认为对话式LLM经过对齐训练后,内部其实隐含了一个负责决定“拒答或执行”的二元分类器。为验证这一假设,他们开发算法从模型中提取出这个代理分类器的近似模型(称为替代分类器)。实验显示,在Llama2等模型上,用不到20%的参数就能构造出与原模型安全判断高度一致的替代分类器。更进一步地,他们利用这些替代模型做白盒攻击,成功将攻击成功率从直接攻击LLM时的22%提升到对替代模型攻击的70%,并可迁移回原LLM产生同等高的攻击效果。这说明LLM内部的安全决策机制可以被分离并单独攻破,暴露了当前对齐方法的脆弱性。这些针对模型安全机理的可解释性研究,加深了我们对对齐工作原理的认识,并为将来定向加固模型安全提供了新途径。例如,发现安全神经元为定向微调提供了靶标,而提取安全分类器则帮助识别模型易受攻击的决策边界。

img

img


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值