论文主要内容与创新点总结
主要内容
- 研究背景与问题:视觉语言模型(VLM)在部署时需确保输出安全,但其安全性较语言模型(LLM)骨干显著下降。即使是空白或无关图像,也可能触发VLM生成有害响应,这与图像和文本表示的“模态差距”有关。现有研究虽假设模态差距影响VLM安全性,但未明确其影响机制及程度。
- 核心发现:
- 模态差距与VLM的不安全率呈强负相关,即模态差距越大,模型越容易生成有害响应。
- 模态差距在预训练阶段形成,并在微调过程中持续存在,是导致VLM安全性下降的关键因素。
- 方法:REGAP:提出预训练正则化方法,通过缩小图像和文本标记嵌入的模态差距,增强VLM的安全对齐。该方法在预训练阶段引入基于L2距离的正则化损失,不依赖额外安全数据、不修改模型结构,且计算开销可忽略。
- 实验结果:在LLaVA v1.5、ShareGPT4V、MiniGPT-4等模型上,REGAP最多可降低16.3%的不安全率,且与现有防御方法结合时提升效果可达18.2%。同时,模型在问答、推理等常规任务上的性能未受影响。