对抗训练(Adversarial Training)作为提升深度学习模型鲁棒性的重要技术,近年来备受关注。本文将从计算机视觉出发,详细阐述对抗训练的发展脉络、基本原理、演化路径,并深入解析FGSM、FGM、PGD、FreeAT等常见对抗训练方法的原理、优缺点,以及模型在攻击阶段的不同应对策略。
一、对抗训练的发展脉络
对抗样本的概念由Szegedy等人在2013年提出。他们发现通过在输入数据中添加微小且难以察觉的扰动,能够导致深度学习模型出现错误且高置信度的预测。这一现象揭示了模型在对抗攻击下的脆弱性。
随后,Goodfellow等人在2014年提出快速梯度符号方法(FGSM),同时提出了对抗训练方法,即通过在训练集中加入对抗样本来提升模型鲁棒性。此后,以PGD、FGM、FreeAT为代表的更强大的攻击与防御方法陆续出现,不断提升了模型对抗攻击的稳健性。
二、对抗训练的基本原理
对抗训练核心思想是在模型训练过程中,利用对抗样本增强模型泛化和抵抗能力,具体步骤包括:
- 生成对抗样本:使用如FGSM、PGD等方法在原始样本上生成扰动样本。
- 混合训练:将生成的对抗样本与原始样本一同训练模型。
- 迭代优化