论AutoML的安全风险_automl缺陷-CSDN博客

本文链接：https://blog.csdn.net/weixin_51176105/article/details/132301251

文章目录

abstract
1 Introduction
2 准备工作
- 2.1神经架构搜索（NAS）
- 2.2攻击漏洞
3测量
- 3.1实验设置
- 3.2实验结果
4分析
5讨论
6相关工作
7结束语

自动化是好的，只要你确切地知道把机器放在哪里。
关于论文的汉语翻译

abstract

神经架构搜索(Neural Architecture Search, NAS)是一种新兴的机器学习(ML)范式，能够自动搜索针对给定任务的模型，极大地简化了ML系统的开发，并推动了ML民主化的趋势。然而，人们对NAS产生的潜在安全风险知之甚少，考虑到在关键领域越来越多地使用NAS生成的模型，这一点令人担忧。
这项工作是朝着弥合这一差距迈出的坚实的第一步。通过对10种流行的NAS方法的广泛实证研究，我们发现，与手工设计的同类方法相比，NAS生成的模型更容易遭受各种恶意攻击(例如，敌对逃避、模型中毒和功能窃取)。此外，根据实证和分析证据，我们为这种现象提供了可能的解释:由于搜索空间和训练成本过高，大多数NAS方法倾向于在早期训练阶段收敛较快的模型;这种偏好导致了与攻击漏洞相关的架构属性(例如，高损失平滑性和低梯度方差)。我们的研究结果不仅揭示了模型特征与攻击脆弱性之间的关系，而且揭示了不同攻击背后的内在联系。最后，我们讨论了可能的补救措施来缓解这些缺点，包括增加细胞深度和抑制跳过连接，这导致了几个有前途的研究方向。

1 Introduction

自动机器学习(AutoML)代表了在现实世界中应用ML技术的一个新范例。对于给定的任务，AutoML自动化从原始数据到可部署ML模型的管道，包括模型设计[18]、优化器选择[37]和参数调优[1]。AutoML的使用大大简化了ML系统的开发，推动了ML民主化的趋势。许多IT巨头已经公布了他们的AutoML框架，如Microsoft Azure AutoML、谷歌Cloud AutoML和IBM Watson AutoAI。
在这里插入图片描述
在本文中，我们关注AutoML的一个主要任务，神经体系结构搜索(NAS)，其目的是找到针对给定任务的高性能深度神经网络(DNN)体系结构。例如，如图1所示，基于细胞的NAS通过按照预先指定的模板重复细胞结构的motif来构建模型，其中，细胞是操作的拓扑组合(例如3×3 convolution)。对于给定的任务，NAS对拓扑结构和操作分配进行了优化。研究表明，在许多任务中，NAS发现的模型显著优于手工设计的模型[11,35,39,46]。

然而，与对提高NAS能力的深入研究相比，它的安全影响还没有被探索。随着ML系统成为恶意攻击[6]的新目标，由于NAS在安全敏感应用程序中日益流行，对其潜在风险缺乏认识是非常令人担忧的。具体来说

RQ1 -与传统的ML实践相比，NAS是否引入了新的弱点?
RQ2 -如果是这样，可能的根本原因是什么?
RQ3——此外，ML从业者如何在设计和操作NAS时减轻这些缺陷?
这些关键问题的答案对于在安全敏感领域(如网络安全、金融和医疗保健)中使用NAS至关重要。

我们的工作-这项工作代表了向回答这些问题迈出的坚实的第一步。

A1 -首先，通过对10种具有代表性的NAS方法的广泛实证研究，我们发现，与手工设计的NAS方法相比，NAS生成的模型更容易遭受各种恶意操纵，如对抗逃避[8,42]、模型中毒[5]、后门注射[23,40]、功能窃取[44]和仅标签成员推断[13]。研究结果表明，与传统的ML实践相比，NAS很可能招致更大的攻击面。
A2 -此外，根据实证和分析证据，我们为上述观察提供了可能的解释。直观地说，由于搜索空间和训练成本过高，NAS倾向于在候选模型收敛之前过早地评估其质量。这种实践倾向于在早期训练阶段快速收敛的模型，从而产生易于各种攻击的架构属性(例如，高损失平滑度和低梯度方差)。我们的分析不仅揭示了模型特征与攻击漏洞之间的关系，而且揭示了不同攻击背后的内在联系。
最后，我们讨论可能的补救办法。除了postNAS缓解(例如，对抗训练[42])，我们还探索了在NAS过程中构建攻击鲁棒性的NAS策略，如增加细胞深度和抑制跳过连接。我们表明，虽然这些策略在一定程度上缓解了漏洞，但它们往往会导致搜索效率和模型性能的重大成本。我们认为理解模型性能、攻击鲁棒性和搜索效率之间的基本平衡是一个需要进一步研究的重要课题。

贡献——据我们所知，这项工作代表了对NAS(和一般的AutoML)产生的潜在风险的首次研究，并揭示了其深远的安全影响。我们的贡献总结如下。

我们证明，与传统的ML实践相比，NAS倾向于引入更大的攻击面，相对于各种攻击，这引起了对NAS在安全敏感领域的使用的严重关注。
我们为这种漏洞提供了可能的解释，揭示了体系结构属性(即梯度平滑性和梯度方差)与攻击漏洞之间的关系。我们的分析也暗示了不同攻击背后的内在联系。
我们讨论了在原位和非原位环境下提高nas生成模型的稳健性的可能缓解措施。该讨论提出了改进当前NAS设计和操作实践的必要性，并指出了几个研究方向。

2 准备工作

2.1神经架构搜索（NAS）

深度神经网络(DNN)是一类ML模型，用于学习复杂数据的高级抽象。我们假设一个预测设定，其中DNN $f_θ$ (以θ为参数)编码函数 $f_θ: R^n→S^m$ ，其中n和m表示输入维数和类数。给定输入x, f(x)是m类的概率向量(单纯形)。
本文主要研究AutoML的一个主要任务——神经体系结构搜索(NAS)，该任务为给定任务[18]搜索性能良好的DNN体系结构。形式上，设D为给定数据集，ℓ(·，·)为损失函数，F为可能模型的功能空间(即搜索空间)，NAS方法A通过最小化以下目标来搜索一个性能DNN $f^∗$ :
在这里插入图片描述
现有的NAS方法可以根据其搜索空间和搜索策略进行分类。接下来，我们将重点关注基于细胞结构的空间[39,46,47,58,64]，它以预先指定的排列方式重复细胞结构的主题，以及利用梯度下降联合优化结构和模型参数的可微NAS策略[11,35,39]。由于他们最先进的性能和效率。然而，我们的讨论概括了其他NAS框架(详见§6)。
不失一般性，我们使用DARTS[39]作为具体示例来说明可微分的NAS。在高层次上，dart搜索两个细胞结构(即，正常细胞和还原细胞)作为最终架构的基本构建块。如图1所示，将一个cell建模为一个有向无环图，其中每个节点x(i)是一个潜在表示，每个有向边(i, j)表示对x(i)的一个操作o(i, j)(如skip connect)。每个节点都是根据它的所有前身来计算的:
在这里插入图片描述
每个cell包含 $n_{in}$ 输入节点(通常为 $n_{in}$ = 2)、 $n_{out}$ 输出节点(通常为 $n_{out}$ = 1)和 $n_{mid}$ 中间节点。每个输入节点获取前面一个单元的输出，输出节点聚合中间节点的潜在表示，而每个中间节点连接到前面的m个节点(通常是m= $n_{in}$ )。
为了实现基于梯度的结构优化，dart在搜索空间上应用了连续松弛。设O为候选操作集，操作的绝对选择被简化为对O上的softmax函数：
在这里插入图片描述
其中，α(i, j) o表示操作o的可训练权值。在搜索结束时，将¯o(i, j)替换为最可能的操作argmaxo α(i, j) o，得到一个离散体系结构。
因此，搜索可以化为一个双层优化目标函数:

其中Ltrn和Lval为训练和验证损失，α = { $α^{(i, j)}$ }和θ分别为体系结构参数和模型参数。为了处理嵌套优化的高昂代价，采用单步梯度下降法避免精确求解内部目标。

2.2攻击漏洞

众所周知，DNN模型在训练和推理阶段都容易受到各种攻击。这里，我们重点介绍以下主要攻击。

对抗规避——在推理时，对手通过用难以察觉的扰动δ修改起始x来生成对抗输入(x+δ)，以导致目标模型f行为不良[21]。形式上，在有针对性的攻击中，让t成为对手想要的目标类，攻击船(x+δ)通过优化以下目标:
在这里插入图片描述
其中，Bε指定允许扰动的集合(如，一个半径为ε的ℓ∞范数球)。通常使用投影梯度下降[42]或通用优化器[8]来求解Eqn(5)。
模型中毒——对手的目标是通过污染训练数据[5]来修改目标模型f的行为(例如，整体性能下降或特定输入的错误分类)。例如，为了使准确率下降最大，以Dtrn和Dtst为训练集和测试集，以f为目标模型，攻击通过优化以下目标(注意:对手可能无法访问Dtrn、Dtst或f)来制作一组投毒输入Dpos:
在这里插入图片描述
后门注入——在训练过程中，通过干扰一个良性模型f，对手伪造了一个木马模型fθ∗对触发模式r∗敏感，受害者在下游任务中使用它;在推理时，对手通过输入触发器内嵌的输入x+ r∗来调用恶意函数。形式上，让Dtrn为训练数据，t为对手想要的目标类，攻击通过优化以下目标，生成一个由θ∗及其相关触发器r∗参数化的木马模型:
在这里插入图片描述
当r∗从一个可行集r γ(例如，一个带有透明γ的3×3 patch)中选择时，第一项强制所有干净的输入被正确分类，第二项确保所有触发输入被错误分类为t，超参数λ平衡两个目标。

功能窃取——在功能窃取[44]中，对手的目标是通过黑盒查询接口探测f，构造一个复制模型fˆ(由θ∗参数化)，功能上类似于受害者模型f。值得注意的是，它不同于窃取模型[54]，目的是在架构或参数方面重构f。形式上，以D为底层数据分布，攻击生成查询预测集Q(注意:对手可能没有D的标记，只有f的查询访问权限，通常受发出查询数量的限制)，其优化目标如下:
在这里插入图片描述
不同的功能窃取攻击在Q的构造方式上是不同的(例如，随机构造或自适应构造)。

成员推断——在成员推断[50]中，给定输入x和模型的预测f(x)，对手试图预测一个二进制变量b，表明x是否包含在f的训练数据中:b←A(x, f).隶属度推理的有效性取决于f在训练数据Dtrn和测试数据Dtst方面的性能差距。如果f(x)的标号是[13]，那么对手可以通过将f(x)的置信分数设为阈值来利用这种性能差距，或者估计其他信号(例如，x到最近的决策边界的距离)。

3测量

为了了解NAS所带来的安全风险，我们将NAS生成模型和手工设计模型的漏洞与上述攻击进行了实证比较。
在这里插入图片描述

3.1实验设置

我们首先介绍实证评价的设置。§B中的表5给出了默认的参数设置。

数据集——在评估中，我们主要使用3个数据集，它们在最近的工作中被广泛用于基准NAS性能[12,35,39,46,58]:CIFAR10[33] -它由32×32彩色图像绘制从10个类别(如“飞机”);CIFAR100 -它本质上是CIFAR10数据集，但分为100个细粒度类;ImageNet32 -它是ImageNet数据集[15]的子集，下采样到大小为32×32的60个类的图像。
NAS方法——我们考虑了10种具有代表性的基于细胞的NAS方法，涵盖了多种搜索策略:(1)AmoebaNet[47]应用进化方法生成候选模型;(2) DARTS[39]是利用梯度下降优化结构参数和模型参数的第一可微方法;(3) DrNAS[11]将可微NAS定义为Dirichlet分布学习问题;(4) ENAS[46]通过候选模型间参数共享降低了搜索成本;(5) NASNet[64]通过重新设计搜索空间来搜索可跨任务迁移的细胞结构;(6) PC-DARTS[59]通过将操作选择限制在一个边的子集，提高了存储效率;(7) PDARTS[12]逐步增加细胞数量，缩小搜索阶段与评价阶段模型深度的差距;(8) SGAS[35]以贪婪、顺序的方式选择操作;(9) SNAS[58]重新制定了基于强化学习的NAS，使其可区分;(10) Random[17]从预定义的搜索空间中随机抽取候选模型。

NAS搜索空间——我们定义了与DARTS[39]类似的默认搜索空间，包括skip-connect、3×3 max-pool、3×3 avg-pool、3×3 sep-conv、5×5 sep-conv、7×7 sep-conv、3×3 dilo -conv、5×5 dilo -conv、1×7 - 7×1 conv、0等10个操作。

手动模型——为了进行比较，我们使用了7个具有代表性的手动设计模型，它们采用了不同的架构设计:(1)BiT[32]使用组规范化和权重标准化来促进迁移学习;(2) DenseNet[28]通过skip连接各层;(3) DLA[60]应用深度聚合技术实现跨层特征融合;(4) ResNet[26]利用残差块促进梯度反向传播;(5) ResNext[57]聚合相同拓扑的变换;(6) VGG[52]代表常规深层褶积结构;(7) WideResNet[61]减小ResNet的深度，增加ResNet的宽度。

训练——所有模型都使用以下设置进行训练:epochs = 600, batch size = 96, optimizer = SGD, gradient clipping threshold = 5.0，初始学习速率= 0.025,learning rate scheduler = cos退火。表1总结了所有模型在基准数据集上的准确性。请注意，NAS模型的性能通常优于它们的手动模型。

3.2实验结果

接下来，我们将NAS-generate和手工设计的模型与各种攻击的脆弱性进行了实证比较。

对抗性规避——我们以投影梯度下降(PGD)攻击[42]为例。在每个数据集上，我们对从测试集中随机抽取的1000个输入进行攻击，并测量攻击成功率为:
在这里插入图片描述
如果一个试验在最大的迭代中被分类为它的目标类，那么它就被标记为成功。
设fc (x)为模型f就输入x赋给c类的概率。为了评估脆弱性的全谱，我们考虑了对手的“困难”和“容易”情况。具体来说，给定输入x，我们根据其概率fc (x)将输出类c排列为c1,c2，…，cm，其中c1为x当前的分类;困难的情况是指对手的目标是将x的分类更改为最不可能的类cm，而简单的情况是指对手的目标是将x的分类更改为第二可能的类c2。表5总结了攻击参数的设置。
在这里插入图片描述

图2说明了针对NAS和手动模型的攻击效果。我们有以下观察。首先，在所有的数据集上，NAS模型似乎更容易受到敌对逃避的攻击。例如，在CIFAR10上，在最可能和最不可能的情况下，攻击对NAS模型的ASR分别达到90%和75%以上。其次，与手工模型相比，NAS模型的ASR具有更明显的聚类结构，这意味着它们具有相似的脆弱性。最后，NAS模型的脆弱性在不同的数据集上表现出不同的模式。例如，与CIFAR10和ImageNet32相比，nas模型的测量结果显示CIFAR100上的差异更大(特别是在最不可能的情况下)，这可能是因为其类的数量更大，导致攻击的“难度程度”变化更大。
在这里插入图片描述
我们也评估了扰动阈值(ε)对攻击脆弱性的影响。图3显示了CIFAR10上不同模型(扰动阶跃α = ε/3)下非靶向PGD的ASR随ε的函数。我们有以下观察。首先，在不同的设置中，手动模型在鲁棒性方面始终优于NAS模型。其次，随着NAS和手动模型上的ASR接近100%，这个漏洞差距随着ε逐渐减小。第三，与手工模型相比，NAS模型的度量方差较小，说明了其脆弱性的共性。

此外，通过比较不同模型易受攻击的对抗实例集，揭示了其脆弱性的共性和差异。我们评估PGD (ε=4/255)与CIFAR10上的不同模型在最不可能的情况下。对于每个模型，我们收集了从1000个随机样本中成功生成的对抗例子集。图4绘制了输入相对于成功攻击模型数量的分布。
在这里插入图片描述

总体而言，PGD攻击对NAS模型生成的成功对抗性示例比手动构建的模型更多。此外，有更多的输入数据导致了对多个NAS模型的成功攻击。例如，超过300个输入数据导致了对7个NAS模型的成功攻击；相比之下，在手动构建模型的情况下，这个数字不到10。因此，我们可以得出结论，NAS模型对于对抗性逃避的易受攻击性似乎相当类似，可能与共同的原因有关联。这表明这些模型在面对对抗性攻击时可能存在共同的脆弱性因素。

在这里插入图片描述
除了PGD之外，我们还考虑了其他的对抗逃避攻击方法。我们采用了自然进化策略（Natural Evolution Strategies，NES）[29]，这是一种黑盒攻击方法，攻击者只能对目标模型f进行查询访问，并使用无梯度优化方法生成对抗性示例。

具体而言，在每次迭代中，我们从正态分布中进行抽样，生成 $n_{query}$ 对称的数据点，这些数据点在当前输入x附近。然后，我们从目标模型f中提取这些数据点的预测值，并利用这些预测值来估计梯度 $\hat{g}$ (x)。

NES方法是一种适用于黑盒攻击的优化方法，它通过在输入空间中搜索最佳的扰动，使得目标模型在被扰动后产生错误的输出。与PGD不同，NES不需要计算模型的梯度信息，而是通过查询目标模型来获得信息并进行优化。这种方法在一些情况下可以更有效地生成对抗性示例，因为它不依赖于模型的梯度信息。
在这里插入图片描述
其中，每个样本u j从标准正态分布N(0, I)中采样，σ为抽样方差。

在CIFAR10上，在图2 (nquery = 400)的相同设置下，我们评估了不同模型对NES的脆弱性，结果如图5所示。一般来说，NAS模型对NES具有更高的脆弱性，特别是在可能性最小的情况下，这表明NAS和手工模型之间的脆弱性差距也适用于黑箱对抗逃避攻击。

模型中毒——在这组实验中，我们评估了中毒攻击对NAS和手动模型性能的影响。我们假设训练数据的一部分 $p_{pos}$ 被随机改变每个输入的类别所污染。我们将不同中毒分数 $p_{pos}$ 下各模型的性能与洁净训练数据下的性能进行比较(即 $p_{pos}$ = 0)，定义洁净精度下降的度量:
在这里插入图片描述
图6比较了pos从0%增加到40%时不同型号的CAD。在NAS和手工模型家族中，结果是平均的。我们有以下观察。首先，正如预期的那样，较大的pos会导致所有模型的性能下降。其次，在固定pos的情况下，NAS模型的准确性下降更为明显。例如，在CIFAR100上， $p_{pos}$ 固定为20%时，NAS模型的CAD比手动模型高4%。此外，随着pos的增加，NAS和手工模型之间的CAD差距也会扩大。

后门注入——接下来，我们将NAS和人工模型的漏洞与神经后门攻击进行比较[23,40,45]。回想一下，在后门注入中，对手试图伪造一个木马模型f∗(通常通过干扰一个良性模型f)，该模型对特定触发器敏感，但行为正常。因此，我们使用两个指标来衡量攻击效率:攻击成功率（ASR）是通过f∗成功将嵌入触发器的输入正确分类为攻击者所需的目标类别的比例。干净准确率下降（CAD）是f∗和f在干净输入上的准确率差异。

我们考虑了TrojanNN [40]，这是一种代表性的背门攻击，作为参考的攻击模型。通过同时优化触发器r和Trojan模型f∗，TrojanNN增强了其他背门攻击（例如BadNet [23]）的效果，后者使用固定的触发器。图7绘制了所有模型的ASR和CAD，其中结果是在每个测试集中随机抽取的1,000个输入上的平均值。请注意，该攻击在所有数据集上对NAS模型似乎更加有效。例如，在CIFAR10数据集上，该攻击对大多数NAS模型的ASR接近100%，而CAD低于3%。此外，与对抗性逃避和模型污染类似，大多数NAS模型（除了Random模型）的度量相当一致，表明它们的易受攻击性相似。请回忆，Random模型从搜索空间中随机选择模型；因此，NAS模型更高的易受攻击性可能与其特定的架构特性有关。

我们进一步评估了木马网络中目标神经元( $n_{neuron}$ )数量的影响。回想一下，TrojanNN针对非神经元目标神经元优化了触发器。图8绘制了不同设定神经元下TrojanNN对不同模型的ASR和CAD图。首先，在 $n_{neuron}$ 的所有设置中，与手动模型相比，TrojanNN始终能够在NAS模型上获得更有效的攻击(即更高的ASR和更低的CAD)。其次，随着 $n_{neuron}$ 在1 ~ 4之间的变化，NAS与手工模型的ASR差异减小，而CAD的差异有增大的趋势。这可以解释如下:针对更多的目标神经元优化触发器往往会导致更有效的攻击(即更高的ASR)，但也会对干净的输入(即更高的CAD)产生更大的影响。然而，这种权衡在NAS模型上不太明显，这意味着它们对有毒数据和清洁数据都有更高的适应能力。

从上面的实验中，我们可以得出结论，与手工模型相比，NAS模型更容易受到后门注入攻击，特别是在更受限的设置下(例如，目标神经元更少)。

窃取功能——我们现在评估各种模型如何受到窃取功能的影响，其中每个模型f作为一个只允许查询访问的黑盒:给定输入x, f返回它的预测f(x)。对手试图基于查询预测对{(x, f(x))}重新构造一个功能相似的模型f∗。
在这里插入图片描述
我们考虑两个场景:(i) f和f∗共享同一个结构;(ii)对手不知道f的体系结构，而是在f∗中使用代理体系结构。我们应用Knockoff[44]，这是一种典型的功能窃取攻击，它自适应地生成查询来探测f以重新构造f∗。我们使用f 和f∗对测试集的预测的平均交叉熵(ACE)来评估攻击，较低的交叉熵表明偷窃更有效。
在这里插入图片描述
图9总结了受害者架构感知设置下的攻击效率。在所有的数据集上，与手动模型相比，攻击在NAS模型上以更低的方差获得更小的ACE。这意味着大多数NAS模型都有类似的功能窃取漏洞。我们进一步考虑了受害者体系结构无关的设置。对于每一对模型，我们假定其中一个为f，另一个为f∗，并测量攻击效率。CIFAR10上的结果(查询数量固定为8K)如表2所示。观察到，在复制模型f∗固定的情况下，作为受害者模型f的NAS模型产生了较低的平均交叉熵（ACE），这意味着无论复制模型的架构如何，窃取NAS模型的功能似乎更容易实现。

成员推断——回想一下，在成员推断中，对手试图推断给定的输入x是否出现在目标模型f的训练集中。推断的准确性可以作为f隐私泄露的一个指标。接下来，我们对各种模型进行成员推理攻击，评估其隐私风险。

有两种可能的情况:(i) f的预测f(x)包含每个c类的置信分数fc(x);(ii) f(x)只包含标签 $c^∗= argmax_c f_c$ (x)。由于(i)可以通过删除f(x)[50]中的置信度分数来缓解，在这里，我们关注(ii)。在仅限类的设置下，我们应用基于决策边界的攻击[13]，通过仅使用标签对抗攻击(如HopSkipJump[9])估计x到最近决策边界的距离，来确定x的隶属度(在训练数据中)。在每一种情况下，我们评估超过2000个输入的攻击，其中一半随机采样自训练集，另一半随机采样自测试集，并使用ROC曲线下面积(AUC)测量攻击有效性，估计的距离作为假性率和真性率的控制。

图10对比了不同模型下的攻击性能。值得注意的是，该攻击在NAS模型上获得了更高的AUC分数。例如，在CIFAR100上，NAS和手工模型的平均分数相差超过0.05，而手工模型的分数接近于随机猜测(即0.5)。此外，大多数NAS模型(除了Random)都显示出类似的漏洞。另外，需要注意的是，手动模型在ImageNet32上似乎更脆弱，这可以解释如下:与CIFAR10和CIFAR100相比，ImageNet32是一个更具挑战性的数据集(见表1);因此，这些模型倾向于更积极地过度拟合训练集，从而导致它们更容易受到成员推理的影响。

备注1 -与手工设计的模型相比，nas生成的模型更容易受到各种恶意操作的攻击。

4分析

§3的实证评估表明，与手工设计的模型相比，nas生成的模型更容易受到各种攻击。接下来，我们为这种现象提供可能的解释。

4.1培训结构的特点

我们假设nas模型的更大的脆弱性源于它们的关键设计选择。

在搜索过程中，常用的NAS方法常常在候选模型完全收敛之前过早地对其性能进行评估。例如，DARTS[39]将搜索描述为一个双层优化问题，其中内部目标对给定模型进行优化;为了节省计算成本，它不是精确地解决这个目标，而是使用一个单一的训练步骤逼近解决方案，这远远不是它的全部收敛。类似的技术也应用于其他流行的NAS方法(如[46,47])。由于候选模型在收敛时的性能没有得到评估，NAS倾向于支持具有更高“可训练性”的模型——这些模型在早期阶段收敛得更快——这导致候选模型展示了以下关键特性:
高损耗平滑度——nas模型的损耗景观趋于平滑，而梯度为优化提供了有效的指导。因此，NAS模型可以使用简单的一阶优化器进行训练。
低梯度方差——nas模型的梯度相对于给定的分布倾向于有低的方差。因此，随机梯度作为真实梯度的可靠估计，使得NAS模型收敛速度快。
在这里插入图片描述

需要注意的是，损失函数的平滑性捕捉了参数空间（或输入空间）中损失函数的几何特性，而梯度方差则衡量了在不同输入下梯度之间的差异。与此相关，前者决定了在已知梯度方向的情况下模型是否容易训练，而后者决定了是否容易可靠地估计梯度方向。

接下来，我们通过比较NAS-generated和手工设计的模型的梯度平滑度和方差来实证验证上述假设。

损失函数的平滑性 - 如果损失函数 L 对于参数 θ 具有 L-Lipschitz 连续梯度（L > 0），即满足 ∥∇L(θ)−∇L(θ′)∥ ≤ L∥θ−θ′∥ 对于任意的 θ、θ′，则称 L 具有 L-Lipschitz 连续梯度。常数 L 控制了 L 的平滑性。虽然很难直接测量给定模型 f 的 L，我们通过探索其损失轮廓 [22] 来了解其损失函数的平滑性，损失轮廓量化了参数扰动对 L 的影响。具体而言，我们如下测量模型 f 的损失轮廓：
在这里插入图片描述
其中θ∗表示局部最优，d1和d2是两个随机的正交方向作为轴，α和β分别表示沿d1和d1的扰动步长。值得注意的是，损失轮廓有效地逼近了二维空间[36]中的损失景观。

图11(a)显示了不同数据集NAS (dart和ENAS)和manual (ResNet和DenseNet)模型的损耗曲线。观察NAS模型趋向于展示一个平坦的损失景观。在其他模型中也观察到类似的现象。这一发现可以解释为什么NAS模型的梯度在最小化损失函数方面提供了更有效的指导，从而使其具有更高的可训练性。

此外，为了§4中分析的目的，我们将参数空间中的损失平滑扩展到输入空间。我们得到下列结果来证明它们之间的基本联系(根据§A的证明)。

定理1。若损失函数L对θ具有L- lipschitz连续梯度，且模型各层权矩阵归一化[48]，则L对输入具有L/√n- lipschitz连续梯度，其中n为输入维数。
根据经验，我们定义f关于给定输入类对(x,y)的损耗轮廓如下:
在这里插入图片描述
其中d1和d2是输入空间中两个随机正交的方向。图11(b)显示了随机采样输入附近nas和人工模型的损耗轮廓。可以观察到，与手动模型相比，NAS模型在输入空间中也表现出更高的损耗平滑度。

梯度方差-同时，梯度的方差相对于底层分布的采样输入量化了随机训练方法(例如，SGD)[20]所使用的梯度估计的噪声水平。形式上，设g为随机梯度。我们将梯度方差定义为(对给定分布的期望):
在这里插入图片描述
假设g是真实梯度的无偏估计，Var(g)测量g与真实梯度的期望偏差。Var(g)越小，噪声水平越低，模型参数θ的更新越稳定。

在图12中，我们测量了训练前(kaim初始化[25])和训练结束后各模型的梯度方差。所有情况下，nas模型的梯度方差在初始化时都比人工模型小两个数量级以上，然后在训练过程中逐渐增大;相比之下，人工模型的梯度方差在训练前后变化不明显。这种观察可以解释为什么NAS模型的随机梯度给出了真实梯度的可靠估计，使它们在早期训练阶段快速收敛。

4.2攻击漏洞解释

我们现在讨论如何将NAS模型对各种攻击的脆弱性归因于高损失平滑性和低梯度方差的特性。
在这里插入图片描述
对抗性规避-对抗性规避的脆弱性主要归因于模型预测f(x)对输入x扰动的敏感性。在白盒设置下，对手通常依靠梯度来构建对抗性输入x∗。例如，PGD[42]通过使用以下规则迭代更新输入来工艺品x∗:

式中，xt为第t次迭代后的摄动输入，Π为投影算子，Bε为允许的摄动集(用ε参数化)，α为摄动步长。显然，攻击效果取决于梯度∇xℓ(f(xt)，y)是否能够对扰动xt提供有效的指导。

如§3.2所示，与手动模型相比，由于追求更高的可训练性，NAS模型往往表现出更平滑的损失景观，其中每个点的梯度代表有效的优化方向;因此，NAS模型往往更容易受到基于梯度的对抗逃避。值得注意的是，这一发现也证实了现有的研究(如[21])，即设计更容易训练的“线性”模型和设计更能抵抗对抗逃避的“非线性”模型之间的基本张力。

在黑盒攻击(如NES)中观察到的类似现象可以解释为:为了进行有效的扰动，黑盒攻击通常依赖于间接梯度估计，而NAS模型的高损失平滑性和低梯度方差使得梯度估计更准确、更高效(查询更少)。

模型中毒——模型中毒的脆弱性可以归因于模型训练对训练集中中毒数据的敏感性。在这里，我们分析了低梯度方差的特性如何影响这种灵敏度。

对于给定数据集D，设L(θ)为θ参数化的模型fθ对D的损失:
在这里插入图片描述
进一步，让θ∗表示f对于d的(局部)最优值。θ初始化为θ0，考虑t步SGD更新，第t步更新为:

其中，αt为步长，gt为梯度估计。给出了θt (t = 1，…， t)。

定理2 ([20])假设(i) L(θ)连续可微，其梯度以Lipschitz常数L为界，(ii)梯度估计的方差gt (t =1，…(iii) θt作为最终参数，其概率与2αt−Lα2 T成正比。输出参数θ¯t满足

在这里插入图片描述
期望是根据¯t的选择和梯度方差来定义的。

定理2直观地描述了影响模型f对给定数据集d的拟合的性质。如§3.2所示，与手工模型相比，NAS模型具有更高的损耗平滑度(即更小的L)和更低的梯度方差(即更小的σ)。因此，NAS模型更容易拟合D。回想一下，在模型中毒中，D由干净数据Dtrn和中毒数据Dpos组成，更紧密地拟合D意味着测试数据的性能下降更多，这可能解释了NAS模型更容易受到模型中毒的影响。

后门注入——回想一下，在后门注入中，对手伪造一个特洛伊模型 f∗，对触发模式 r 敏感，以便任何输入 x，一旦嵌入 r，就倾向于被误分类为目标类别 t：f∗(x+r) = t。为了训练 f∗，攻击者通常会在训练数据集 $D_{trn}$ 中注入带有触发的输入。

从直觉上讲，这种攻击实质上是利用了对抗性逃避的攻击向量，该攻击在推断时扰动 x，以及模型污染攻击，该攻击在训练时污染 $D_{trn}$ 。因此，NAS 模型对这两种攻击向量的脆弱性自然而然地导致了它们对后门注入的脆弱性。由于篇幅限制，我们在此省略了详细的分析。

功能窃取——回想一下在功能窃取(例如，Knockoff[44])中，对手(自适应地)生成查询来探测受害者模型f，以复制一个功能相似的模型f∗。例如，Knockoff 鼓励查询是 f 确定的，跨不同类别的查询多样化，并且在 f∗ 和 f 上产生不一致的查询。

这种攻击的有效性取决于f对于底层分布的损失情况;直观地说，输入空间中损失景象的复杂性意味着基于有限数量的查询拟合f∗到f的困难。因此，考虑到它们的高损耗平滑性，NAS模型往往更容易受到功能窃取的攻击。

成员推理——§3中显示，NAS模型似乎更容易受到成员推理的影响，特别是在仅标签设置下，其中只有预测标签是可访问的。因此，对手依赖于诸如输入x到其最近决策边界区(x, f(x))的距离等信号;直观地说，如果x出现在训练集中，dist(x, f(x))很可能低于某个阈值。具体来说，[13]使用了HopSkipJump攻击[9]来估计dist(x, f(x))，方法是迭代查询f，使用bin搜索在决策边界上找到点xt，使用估计的xt的梯度沿着边界行走，找到点xt+1，进一步减小到x的距离，如图13所示。
在这里插入图片描述
该方法的有效性取决于(i)估计梯度的质量和(ii)沿决策边界下降的可行性。对于NAS模型来说，由于梯度方差较低，梯度估计更趋于准确，而决策边界则由于损耗较高而趋于平滑，这可能解释了NAS模型更容易受到仅标签成员推理攻击的原因。

备注2 - nas生成模型的高损失平滑性和低梯度方差可能是其更容易受到各种攻击的原因。

4.3各种攻击的连接

以上表明，nas模型对各种攻击的脆弱性可能由其高损失平滑性和低梯度方差来解释，这意味着:不同的攻击也可能通过这两个因素内在地联系在一起。

具体来说，大多数现有的攻击都涉及输入或模型扰动。例如，对抗规避，无论白框或黑框设置，迭代计算(或估计)梯度并执行相应的扰动;后门注入对触发器和模型进行了联合优化，需要基于梯度估计模型对更新后的触发器的响应。

**因此，这种攻击的有效性在很大程度上取决于(i)如何在每次迭代时估计梯度，以及(ii)如何使用梯度估计来指导输入或模型扰动。**有趣的是，梯度方差和损失平滑度分别极大地影响了(i)和(ii):低梯度方差使对手能够准确估计梯度，而高损失平滑度使对手能够使用这种估计来进行有效的扰动。

备注3 -各种攻击的有效性通过损失平滑性和梯度方差内在地联系在一起。

5讨论

在§3和§4中，我们揭示了nas生成模型的可训练性与它们对各种攻击的脆弱性之间的关系，仍然存在两个关键问题:(i)与此类脆弱性相关的体系结构模式是什么?以及(iii)有哪些潜在的策略可以弥补目前NAS实践所造成的漏洞?在本节中，我们将探讨这两个问题，并进一步讨论这项工作的局限性。

5.1架构缺陷

如§4所示，NAS模型的脆弱性可能与其高损失平滑度和低梯度方差有关，这源于对高可训练性模型的偏好。现在，我们将讨论这种偏好如何反映在具体的体系结构模式中，我们将从两个方面进行检查，即拓扑选择和操作选择。

拓扑选择——最近的研究[51]表明，在基于细胞的NAS中，对具有更快收敛速度的模型的偏好通常会导致宽而浅的细胞结构。如图1所示，单元深度定义为从输入节点到输出节点的最长路径上的连接数;每个中间节点的宽度定义为卷积算子的通道数或线性算子的特征数，单元宽度定义为连接到输入节点的中间节点的总宽度。表3总结了在我们的评估中使用的NAS模型的细胞深度和宽度。可以观察到，大多数NAS模型的细胞结构都是浅的(平均深度2.8)和宽的(平均宽度3.3c)，假设每个中间节点的宽度为c。
在这里插入图片描述

从[51]中可以看出，在相似的设置(即相同的节点和连接数)下，宽细胞和浅细胞往往具有更高的可训练性。这一观察也被最近关于宽神经网络[34]收敛性的理论研究所证实:无限宽的神经网络倾向于采用梯度下降优化的线性模型。

操作选择——对于更高可训练性的偏好也会影响在单元结构中连接上的操作选择(例如3×3卷积与跳过连接)，并且通常更倾向于跳过连接而不是其他操作。

回想一下，差分NAS方法[11,35,39]通常在搜索空间上应用连续松弛来实现直接基于梯度的优化。每个连接上的操作被建模为所有可能操作O的softmax，并通过选择最可能的一个 $argmax_o∈_Oα _O$ 进行离散化。由[55]可知，在优化良好的模型中，skip连接 $α_{skip}$ 的权值往往超过其他操作，导致其被选择的几率较大。这种偏好在我们的环境中起作用，因为NAS模型倾向于在早期训练阶段快速收敛。表3总结了典型NAS模型中每个单元的跳过连接数。注意，大多数NAS模型在每个单元中都有不止一个跳过连接。

跳跃连接的操作最初是为了在dnn中实现反向传播而设计的[26,28]。作为一个副作用，精确的梯度估计也有助于利用梯度信息[56]的攻击。因此，NAS模型中skip连接的过度使用也是它们容易受到此类攻击的部分原因。

备注4 - nas生成的模型通常具有宽而浅的单元结构以及过度使用跳过连接。

5.2潜在的缓解措施

现在我们讨论可能的缓解措施，以纠正由NAS实践引起的脆弱性。我们考虑在后-NAS和内部NAS设置下增强NAS模型的鲁棒性。在后-NAS缓解中，我们探索使用现有的对抗防御方法来增强NAS模型的抵抗能力，而在内部NAS缓解中，我们直接探索在NAS过程中构建对抗鲁棒性。

后NAS缓解——作为一个具体的例子，我们应用对抗训练[41,49]，一种对抗逃避的代表性防御，来增强NAS模型的鲁棒性。直观地说，对抗性训练通过迭代生成针对当前配置的对抗性输入，并更新f以正确分类这些输入，从而提高了给定模型f的鲁棒性。

在这里插入图片描述
图14比较了在CIFAR10数据集上各种模型进行对抗训练的效果。对于每个模型，我们测量了其准确率（从对抗训练之前的准确率下降）和鲁棒性（通过非定向PGD攻击的成功率来衡量）。观察到一些NAS模型（例如DARTS）显示出与手动构建模型相当的准确率和鲁棒性，而其他NAS模型（例如DrNAS）在准确率和鲁棒性方面表现较差，这可能可以通过与对抗训练相关的多样性架构模式（例如密集连接、卷积操作的数量和细胞大小）[24]来解释。这种差异也暗示对抗训练可能并不是提高所有NAS模型鲁棒性的通用解决方案。

In-NAS缓解——我们进一步研究如何直接在NAS过程中构建攻击的鲁棒性。基于§5.1的分析，我们探索了两种潜在的策略。

(i)增加细胞深度-由于NAS模型的脆弱性往往与它们的宽和浅的细胞结构有关，我们探索增加它们的细胞深度。为此，我们可以重新连接现有的NAS模型，或者修改候选模型的性能度量。对于后一种情况，我们可以在评估前增加培训期的数量。例如，DARTS在不完全优化模型参数θ相对于结构参数α的情况下，使用单阶梯度下降法(nstep = 1)逼近解[39]。我们通过增加训练步骤的数量(例如，nstep = 5)来改进近似，以增加搜索时间为代价。
(ii)抑制跳过连接-由于NAS模型的脆弱性也与跳过连接有关，我们有意探索减少它们的过度使用。为此，我们可以用其他操作(如卷积)替换现有NAS模型中的跳过连接，或者修改它们在搜索过程中被选择的可能性。对于后一种情况，在每次迭代时，可以将skip连接 $α_{skip}$ 的权值乘以Eqn(3)中的系数γ∈(0,1)。
我们在DARTS框架内评估这些战略的有效性。设DARTS-i、DARTS-ii、DARTS-iii为DARTS在应用(i)、(ii)、(i)+(ii)策略后的变体。图15比较了它们的细胞结构。值得注意的是，DARTS -i比DARTS具有更深层次的细胞结构(5 vs 2)，而DARTS-ii和 DARTS-iii分别用3×3 convolution替代了DARTS和DARTS-i中的skip连接。

表4比较了他们在CIFAR10上对抗规避、后门注入和成员推理的脆弱性。实验设置与§3相同。观察到这两种策略都可以提高nas模型对这些攻击的鲁棒性。例如，在DARTS-iii中结合这两种策略可以将成员推断的AUC分数从0.562降低到0.527。在模型提取攻击的情况下也可以观察到类似的现象。如图16所示，增加细胞深度显著增强了对模型提取的鲁棒性，而抑制跳跃连接则略微提高了模型提取的鲁棒性。

然而，这种策略似乎对模型中毒的鲁棒性有负面影响。如图17所示，两种策略，尤其是增加cell深度，都倾向于加剧攻击漏洞。这可能是因为，虽然与中毒数据相吻合比较困难，但与清洁数据相吻合的更深层次的结构也比较困难，这导致了准确性的显著下降。这也可以解释为什么在表4所示的DARTS-i和 DARTS-iii上后门注入攻击有较高的CAD。这个观察也暗示了在设计NAS模型时对不同攻击的健壮性之间的潜在权衡。

备注5 -简单地增加小区深度和/或抑制跳过连接可能只能部分减轻NAS-generated模型的脆弱性。

5.3局限性

接下来，我们将讨论这项工作的局限性。
可选择的NAS框架——在本研究中，我们主要考虑最近NAS方法采用的基于细胞的搜索空间[11,14,39,46,62]，而其他方法考虑的是全局搜索空间(例如，层链结构)[3,7]。此外，虽然我们关注的是可微搜索策略，但还有其他策略，包括随机搜索[31]、贝叶斯优化[4]和强化学习[3,63,64]。我们考虑将探索由替代NAS框架生成的模型的脆弱性作为我们正在进行的研究。

其他可训练性指标-在本工作中，我们只考虑损失平滑性和梯度方差作为影响NAS模型可训练性(和脆弱性)的两个关键因素。还有其他可训练性指标(例如，神经正切内核[10]的条件数)也可能指示攻击漏洞。

鲁棒性、准确性和搜索效率——据揭示，NAS产生的更大的漏洞可能与在早期训练阶段收敛较快的模型(即更高的可训练性)的偏好有关。然而，尚不清楚这一观察结果是否暗示了鲁棒性、准确性和搜索效率之间的根本冲突;如果是这样，是否有可能找到两者之间的最佳平衡?我们认为回答这些问题对于实际环境中NAS的设计和操作至关重要。

6相关工作

接下来，我们调查了与这项工作相关的文献。
神经结构搜索——现有的NAS方法可以按三个维度分类:搜索空间、搜索策略和性能度量。

搜索空间定义候选模型的可能集合。早期的NAS方法侧重于层链结构[3]，由一系列层组成。由于手工制作的模型通常由重复的图案组成，最近的方法提出了寻找这样的细胞结构，包括连接拓扑和每个连接的相应操作[39,46,47,58,64]。

搜索策略定义了如何有效地探索预定义的搜索空间。早期的NAS方法要么依赖于随机搜索[31]，要么依赖于贝叶斯优化[4]，这些方法往往在搜索效率和模型复杂性方面受到限制。最近的研究主要使用了强化学习(RL)[3]或神经进化的方法[39,47]。经验表明，基于神经进化和rl的方法在[47]上的表现相当好。

性能度量评估候选模型并指导搜索过程。最近，一次性NAS已经成为一种流行的性能度量方法。它将所有候选模型视为超网(即一次性模型)的不同子图，并在候选模型之间共享权重[39,46,58]。本文中考虑的可区分的NAS方法就属于这一类。不同的一次性方法在如何训练一次性模型上有所不同。例如DARTS[39]通过搜索空间的不断松弛，对一次性模型进行优化。

ML安全——随着在安全敏感领域的广泛应用，ML模型正成为恶意操作[6]的新目标。各种攻击向量已经被利用:对抗性规避飞机对抗性输入迫使目标模型行为不当[8,21];模型中毒通过污染目标模型的训练数据[30]来改变目标模型的行为(如性能下降);后门注入创建了一个木马模型，这样任何嵌入特定触发器的输入都可能被模型误分类[23,40];功能性窃取构建了一个功能类似于受害者模型的复制模型[27,44];成员推理通过基于模型的预测[50]来推断给定的输入是否包含在模型的训练数据中，从而违反了数据隐私。

作为回应，另一项工作致力于提高ML模型对此类攻击的弹性。例如，针对对抗逃避，现有防御探索新的训练策略(例如，对抗训练)[42,53]和检测机制[19,43]。然而，当面对更强大的攻击时，这种防御往往会失败[2,38]，导致攻击者和防御者之间持续不断的军备竞赛。

尽管对NAS和ML安全性进行了大量的并行研究，但NAS生成的模型对恶意操作的鲁棒性还有待进一步研究。与这项工作同时进行的是，[16]中显示，NAS模型往往更容易受到敌对逃避的攻击，而我们的工作在考虑敌对逃避之外的各种攻击、为这种脆弱性提供可能的解释和调查潜在的缓解方面有所不同。

7结束语

本工作对AutoML带来的安全风险进行了系统的研究。从实证和分析的角度，我们证明，与手工设计的模型相比，NAS生成的模型更容易受到各种恶意操作的攻击，这意味着现有NAS方法的设计存在根本缺陷。我们认为，这种现象的可能原因是高损耗平滑度和低梯度方差，这是由于NAS对具有较高可训练性的模型的偏好。我们的发现引起了对当前NAS在安全敏感领域的实践的关注。此外，我们还讨论了减轻这些限制的潜在补救措施，这有助于以更健壮和更有原则的方式设计和操作NAS。