文章主要内容
本文提出了一种名为SaP(Safety Polytope)的几何框架,用于解决大语言模型(LLM)的安全问题。核心思想是在LLM的表示空间中定义一个凸多面体(Polytope),通过多面体的“面”(Facets)来刻画不同的安全约束,从而实现对不安全输出的检测和纠正。具体包括以下内容:
- 几何建模:将安全约束建模为LLM表示空间中的凸多面体,每个面代表一个安全约束,通过分类问题学习多面体的参数(超平面和阈值)。
- 概念编码器(Concept Encoder):引入非线性变换和稀疏正则化,解耦模型表示中的多义性,使不同面能对应特定的安全语义(如暴力、歧视等)。
- 表示转向算法(Representation Steering):在推理阶段动态调整模型的内部激活,将不安全的表示引导回安全区域,避免修改模型权重或重新训练。
- 实验验证:在Llama2-7B、Ministral-8B、Qwen2-1.5B等模型上测试,显著降低对抗攻击成功率(如Llama2的ASR从12.92%