[论文解读]本文介绍了EVA-02，一种基于Transformer的视觉表示模型，通过掩码图像建模（MIM）预训练来重建强大且稳健的语言对齐视觉特征。

强化学习曾小健

已于 2024-11-16 16:14:24 修改

阅读量1.1k

点赞数 6

分类专栏： VIT/EVA分类模型文章标签： transformer 深度学习人工智能

于 2024-11-16 14:12:16 首次发布

本文链接：https://blog.csdn.net/sinat_37574187/article/details/143816681

版权

全文总结

本文介绍了EVA-02，一种基于Transformer的视觉表示模型，通过掩码图像建模（MIM）预训练来重建强大且稳健的语言对齐视觉特征。

研究背景

背景介绍: 这篇文章的研究背景是近年来计算机视觉和视觉语言表示研究的快速发展，推动了大规模模型的出现。然而，这些大规模模型通常需要大量的计算资源和数据，难以被更广泛的研究社区所使用。
研究内容: 该问题的研究内容包括提出一种新的视觉表示模型EVA-02，旨在通过更少的参数和计算预算实现高性能的视觉任务。
文献综述: 该问题的相关工作有：现有的大规模视觉模型如ViT和CLIP等，虽然性能优异，但计算资源需求高。之前的研究表明，通过掩码图像建模（MIM）预训练可以显著提升视觉模型的性能。

研究方法

这篇论文提出了EVA-02模型。具体来说：

模型架构: EVA-02基于平面Vision Transformers（ViTs），采用了更新的纯Transformer架构，并结合了强大的CLIP视觉编码器进行预训练。
预训练策略: 使用EVA-02作为MIM任务的教师模型，目标是通过可见图像块的条件回归来重建被掩码的EVA-CLIP视觉特征。预训练数据来自公开可用的IN-21K和Merged-38M数据集。

实验设计

数据集: 主要使用IN-1K、IN-21K、COCO、ADE20K等公开数据集进行训练和评估。
训练设置: 使用Adam优化器和DeepSpeed加速器进行训练，采用不同的预训练步数和中间微调设置。
评估指标: 包括图像分类、视频分类、目标检测、实例分割和语义分割等任务的准确率、AP值和mIoU等。

结果与分析

图像分类: EVA-02在IN-1K验证集上表现出色，尤其是EVA-02-L模型，仅使用304M参数就达到了90.0的顶级1准确率。
零样本分类: EVA-02-CLIP在IN-1K上的零样本顶级1准确率达到80.4，超过了之前最大的开源CLIP模型。
目标检测和实例分割: 在COCO和LVIS数据集上，EVA-02-L模型表现出色，分别达到了64.5 APbox和55.8 APmask。
语义分割: 在COCO-Stuff-164K和ADE20K数据集上，EVA-02也取得了显著的性能提升，分别达到了53.7 mIoU和62.0 mIoU。

结论

这篇论文展示了EVA-02作为一种高效且可访问的视觉表示模型，在各种视觉任务中均表现出色。通过使用公开的训练数据和较少的参数，EVA-02实现了与更大规模模型相当甚至更高的性能。EVA-02不仅降低了计算资源的门槛，还促进了视觉和视觉语言表示研究的普及和发展。

这篇论文通过实验证明了EVA-02的有效性，具有重要的理论和实际意义。

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何在保持较高性能的同时，降低大规模视觉表示模型的计算和存储需求。现有的研究主要集中在通过增加参数、数据和计算预算来提升模型性能，但这导致了高昂的计算成本和有限的资源访问。
研究难点：该问题的研究难点包括：训练、调优和评估非常大的视觉模型需要显著的计算资源，这些资源可能非常昂贵且耗时；现有的最先进模型通常使用大量的私有训练数据和基础设施，限制了研究的可访问性和透明度。
相关工作：该问题的研究相关工作包括：近年来在视觉和视觉语言表示学习方面的研究进展，如Vision Transformers (ViT)、CLIP等。这些工作表明，增加模型规模、数据和计算预算可以提升性能，但同时也带来了高昂的资源需求。

研究方法

这篇论文提出了EVA-02，一种基于Transformer的视觉表示方法，旨在通过掩码图像建模（MIM）预训练来重建强大且稳健的语言对齐视觉特征。具体来说，

架构改进：EVA-02采用了改进的Plain ViT架构，包括使用Gated Linear Unit (GLU)作为前馈网络（FFN），Sub-LN作为归一化层，以及2D Rotary Position Embedding (RoPE)进行位置信息注入。这些改进使得模型在最小视觉结构先验和偏差的情况下，能够更好地适应掩码建模任务。
预训练策略：EVA-02的预训练目标是回归掩码的图像文本对齐视觉特征。使用大小为1亿参数的CLIP视觉编码器作为目标表示，通过块状掩码策略进行掩码处理。预训练数据来自公开的IN-21K数据集。
模型变体：提供了四种EVA-02变体，参数从6M到304M不等，每个变体都展示了出色的性能。

实验设计

数据收集：预训练数据主要来自IN-21K数据集，合并了CC12M、CC3M、COCO、ADE20K、Object365和OpenImages等公开数据集，总计3800万张图像。
实验设置：预训练采用Adam优化器，峰值学习率为3e-3，批量大小为4k。训练分为三个阶段：初始预训练、中间预训练和最终预训练。中间预训练在IN-21K数据集上进行，最终预训练在合并后的数据集上进行。
评估任务：在图像分类、零样本视频分类、目标检测和实例分割、语义分割等任务上进行评估。评估使用了多个基准数据集，包括ImageNet-1K、ImageNet-V2、ImageNet-ReaL、ImageNet-Adversarial、ImageNet-Rendition、ImageNet-Sketch、ObjectNet、COCO、LVIS、COCO-Stuff-164K和ADE20K。

结果与分析

图像分类：EVA-02在ImageNet-1K验证集上的细调顶1准确率达到了90.0%，使用304M参数的大模型表现尤为突出。此外，使用22M参数的小模型在ImageNet-1K验证集上的细调顶1准确率为85.8%。
零样本视频分类：EVA-02-CLIP在UCF-101数据集上的顶1准确率为75.9%，在K-400、K-600和K-700数据集上的平均顶1准确率分别为67.7%、66.1%和60.2%。
目标检测和实例分割：EVA-02在COCO和LVIS数据集上的表现优于现有的最先进模型，特别是在LVIS数据集上，EVA-02-L的APbox和APmask分别达到了65.2%和57.3%。
语义分割：EVA-02在COCO-Stuff-164K和ADE20K数据集上的表现也优于现有的最先进模型，使用UperNet的EVA-02-L在ADE20K数据集上的单尺度顶1 IoU达到了59.8%。

总体结论

这篇论文提出的EVA-02通过改进的Plain ViT架构和掩码图像建模预训练策略，实现了强大的视觉表示能力，同时大幅降低了计算和存储需求。EVA-02系列模型在不同规模的参数下均表现出卓越的性能，使得更多研究人员能够访问和使用最先进的视觉模型。未来的研究可以进一步探索EVA-02在多模态系统中的应用潜力。

论文评价

优点与创新

显著的参数和计算资源减少：EVA-02在保持优越性能的同时，显著减少了参数数量和计算预算。例如，EVA-02-CLIP仅使用约1/6的参数和1/6的图像-文本训练数据，却达到了80.4的零样本Top-1准确率。
高效的预训练策略：通过使用CLIP视觉编码器的掩码图像建模（MIM）预训练，EVA-02能够从强大的CLIP视觉编码器中学习可迁移的双向视觉表示。
多样化的模型尺寸：提供了从6M到304M参数的多种EVA-02变体，每个变体都表现出令人印象深刻的性能。
开放性和可访问性：为了促进开放研究和开放获取，EVA-02的完整套件已发布给社区。
强大的性能：在各种代表性视觉任务上，EVA-02的性能优于现有的最先进方法，包括图像分类、目标检测和实例分割、语义分割等。
鲁棒性和泛化能力：EVA-02在多个ImageNet验证集变体上表现出卓越的鲁棒性和泛化能力。

不足与反思

数据污染的影响：尽管研究表明数据污染对MIM预训练的影响较小，但在未来的研究中仍需进一步探讨这一问题，以确保数据集的纯净性。
中间微调的作用：虽然EVA-02在没有额外中间微调的情况下表现出色，但进一步的中间微调可能会进一步提升性能，这需要在未来的研究中探索。
未来研究的方向：论文建议未来的研究可以进一步探索不同尺寸的视觉和视觉-语言表示的交替训练方法，以实现更高效和可扩展的预训练。

关键问题及回答

问题1：EVA-02在图像分类任务中的具体表现如何？

在ImageNet-1K（IN-1K）验证集上，EVA-02-B和EVA-02-L分别达到了88.6和90.0的微调top-1准确率。具体来说，EVA-02-Ti和EVA-02-S在小型模型中也表现出色，分别达到了80.7和85.8的准确率。这表明EVA-02在各种模型尺寸下都能实现较高的图像分类性能。

问题2：EVA-02在零样本评估中的表现如何？

EVA-02-CLIP在ImageNet-1K上的零样本top-1准确率达到了74.7（基础模型）和80.4（大型模型），显著优于之前的CLIP模型。这一结果表明，EVA-02-CLIP在不需要额外标注数据的情况下，能够有效地进行零样本学习，展现出强大的泛化能力。

问题3：EVA-02在目标检测和实例分割任务中的表现如何？

在COCO和LVIS数据集上，EVA-02-L在目标检测和实例分割任务中表现出色。具体来说，EVA-02-L在COCO数据集上的APbox为64.1，APmask为55.4；在LVIS数据集上的APbox为65.2，APmask为57.3。这些结果显示出EVA-02在处理复杂的目标检测和实例分割任务时具有很高的准确性。

EVA-02：Neon Genesis的视觉表示

方旭新，孙全，王兴刚，黄铁军，王新龙，曹岳11，11 北京人工智能研究院2华中科技大学

与Asuka一起在baaivision/EVA/02中战斗

摘要

我们推出了EVA-02，这是一个下一代基于Transformer的视觉表示，经过预训练以通过掩码图像建模重建强大且健壮的语言对齐视觉特征。EVA-02采用了更新的普通Transformer架构以及来自开放且可访问的巨大CLIP视觉编码器的广泛预训练，与以往最先进的各种代表性视觉任务相比，它在利用显著更少的参数和计算预算的同时展示了卓越的性能。值得注意的是，仅使用公开可获取的训练数据，EVA-02仅拥有304M参数，在ImageNet-1K验证集上实现了惊人的90.0微调Top-1准确率。此外，我们的EVA-02-CLIP能够在ImageNet-1K上达到高达80.4的零样本Top-1，超过了之前最大的&最好的开源CLIP，其参数仅为约1/6，图像-文本训练数据约为1/6。我们提供了四种EVA-02变体，模型大小从6M到304M不等，所有这些都具有令人印象深刻的性能。为了促进开放获取和开放研究，我们将EVA-02的完整套件发布给社区。

1. 引言

最近的研究进展导致了对扩展视觉[81, 44, 124, 17]以及视觉-语言[140,123,30,139]表示的兴趣激增。这些努力是由增加参数、数据和计算预算最终会提高性能[63,142,134,93]这一信念所驱动的。

然而，大型模型在计算机视觉领域与更广泛的研究社区可负担的模型之间存在日益扩大的差距。训练、调整和评估非常大的视觉模型需要大量的计算资源，这可能成本高昂且耗时。这通常导致大规模视觉表示以少量甚至单次拍摄的方式进行训练，限制了完全优化整个过程的能力。此外，

图1：EVA-02（#params:304M）与EVA（#params: 1011M）预训练表示之间的定性比较。仅使用304M预训练表示的EVA-02能够对之前的最先进EVA发起“大杀戮”行为。请注意，雷达图中的每个轴的比例都是按EVA的性能进行归一化的，每个轴的步长是相同的。

研究最先进表示的方法通常需要大量基础设施和网络规模私有训练数据[142,3,26,38][142,3,26,38]，这使得以一种既直观又透明的方式评估建模进步的效果变得困难，并限制了对广泛的研究者和从业者的访问。这些挑战突显了迫切需要一种更高效、可访问的方法来训练和评估最先进的视觉以及视觉-语言表示。

在这项工作中，我们提出了EVA-02，一系列经过稳健优化的普通视觉变换器（ViTs）[118,41]，它们具有中等大小的模型，配备了通过掩码图像建模（MIM）预训练从强大的CLIP[95, 44]视觉编码器学习到的可迁移双向视觉表示[40, 80]。与当前

method		zero-shot evaluation with EVA-CLIP	zero-shot evaluation with EVA-CLIP	zero-shot evaluation with EVA-CLIP	transfer learning	transfer learning	transfer learning	transfer learning	transfer learning	transfer learning	transfer learning
method		image cls	image cls	video cls	e2e ft image cls	object det	object det	instance seg	instance seg	semantic seg	semantic seg
method	enc.	IN-1K	27 avg.	4 avg.	IN-1K variants avg.	COCO	LVIS	COCO	LVIS	COCO164K	COCO164K ADE20K
method	#params	(Table 10)	(Table 9)	(Table 11)	(Table 7) (Table 6)	(Table 14)	(Table 14)	(Table 14)	(Table 14)	(Table 16)	(Table 16)
EVA[44] EVA-02-L	1011M	78.5	71.4	66.0	89.7 84.0	64.4	62.2	55.5	55.0	53.4	62.3
EVA[44] EVA-02-L	304M	80.4	73.5	67.7	90.0 85.2	64.5	65.2	55.8	57.3	53.7	62.0
EVA[44] EVA-02-L	-707M	+1.9	+2.1	+1.7	+0.3 +1.2	+0.1	+3.0	+0.3	+2.3	+0.3	-0.3

表1：EVA-02-L在各种主流视觉基准测试上的定量性能总结。

领先的视觉模型拥有数十亿参数[81, 44,124,17]，这些EVA-02变体需要更少的计算预算和资源来研究，允许对通常被忽视的方面进行深入探索。

我们的实证调查表明，小型纯ViTs具有很高的能力，它们的潜力已被显著低估。通过利用从语言模型借用的最新纯Transformer架构设计[37,110,113,122]，以及从公开可用的巨大EVA-CLIP[44]视觉编码器进行彻底的MIM预训练，EVA-02能够在各种视觉任务上实现比之前最先进的方法更优越的性能，且模型规模要大得多。

值得注意的是，仅使用3800万公开可获取的数据，EVA-02的小型变体仅有2200万个参数，在ImageNet-1K(IN-1K)评估集上实现了85.8微调top-1准确率[105]，而大型模型仅有30.4百万参数则实现了杰出的90.0微调top-1准确率。此外，我们还展示了通过MIM预训练的EVA-02表示初始化CLIP的图像编码器，在IN-1K评估集上可以达到高达80.4零样本top-1，超越了之前最大的&最好的开源CLIP-Giant[1]，后者仅有约1/6个参数和约1/6的图像-文本训练数据。EVA-02还在其他代表性视觉任务上取得了最先进的表现，例如在LVIS上的目标检测和实例分割[50](65.2 APbox& 57.在val上使用了3个APmask，在test-dev上使用了COCO[78](64.5 APbox& 55.8 APmask)，以及在COCO-stuff-164K[16](53.7 mIoUss)和ADE20K[147](61.7 mIoUss和62.0 mIoUms)上进行的语义分割。关于EVA-02性能的定量总结，请参考表1。

arch.	norm	init.	FFN	pos. embed.	IN-1K ft top-1 acc.
	base-sized model(86M), IN-1K ft number of tokens= 196	base-sized model(86M), IN-1K ft number of tokens= 196	base-sized model(86M), IN-1K ft number of tokens= 196	base-sized model(86M), IN-1K ft number of tokens= 196	base-sized model(86M), IN-1K ft number of tokens= 196
	pre-LN	BEiT	MLP	abs.PE	84.0(*)
	pre-LN	xnorm	MLP	abs.PE	84.0
	pre-LN	BEiT	SwiGLU	abs.PE	83.9
	pre-LN	xnorm	SwiGLU	abs.PE	85.0
	sub-LN	xnorm	SwiGLU	abs.PE	85.2
TrV	sub-LN	xnorm	SwiGLU	2D RoPE	85.6()
	sub-LN	xnorm	SwiGLU	2D rel. PE	X
	post-LN	xnorm	SwiGLU	RoPE	X

表2：从ViT到TrV。所有实验都是在基础大小的普通ViT（宏架构：深度=12，宽度=768，#heads=12）上进行进行的，并在IN-1K上进行了300个周期的MIM预训练。MIM的目标是基于可见图像块重建被遮蔽的EVA-CLIP视觉特征。“X”：不稳定的或发散的预训练。“xnorm”：xavier正则化权重初始化。

所提出的EVA-02系列提供了从6M到304M参数的一系列多样化的模型大小，每个都展示了卓越的性能。这项工作的目标不一定是提出一种新颖的方法，而是努力确定一个健壮且有效的配方，以使最先进的模型在实践中更加经济实惠。通过提供一个更易于访问和性能更好的选项，EVA-02使得获取最先进视觉模型的途径更加民主化，允许研究人员和从业者在没有大量基础设施或资源需求的情况下进行高质量的研究。我们希望我们的努力能使更多的研究社区以更高效和公平的方式推动这一领域的发展。

2. 方法

EVA-02的目标是引入下一代基于Transformer的视觉表示，该表示在中等模型大小下实现了强大的性能。为了实现这一目标，我们的表示工具性项目包括两部分：对普通ViT进行的架构改进，以及在§2.1中介绍的我们的MIM预训练策略。

2.1. 架构

在高层，普通的ViT及其变体带有交织的多头自注意力(MHSA)层，用于全局空间信息聚合和逐位置。

图2：ViT和TrV块示意图。TrV建立在原始的简单ViT架构[41]之上，并包括几个增强功能：SwiGLU全连接层（FFN）、子线性网络（sub-LN）、二维RoPE和xavier归一化权重初始化。为了保持参数和FLOPs与基线一致，SwiGLU的FFN隐藏维度是典型MLP对应物的一半。

	MIM teacher	IN-21K pt datase pt epochs intermed. ft	IN-21K pt datase pt epochs intermed. ft	IN-21K pt datase pt epochs intermed. ft	IN-1K ft top-1 acc.
arch.
(a) base-sized model(86M), IN-1K ft number of tokens=196	(a) base-sized model(86M), IN-1K ft number of tokens=196	(a) base-sized model(86M), IN-1K ft number of tokens=196	(a) base-sized model(86M), IN-1K ft number of tokens=196	(a) base-sized model(86M), IN-1K ft number of tokens=196	(a) base-sized model(86M), IN-1K ft number of tokens=196
ViT-B	VQKD-B[92]	IN-1K	300(0.2M-step)	X	85.0
ViT-B	CLIP-B[95]	IN-1K	300(0.2M-step)	X	85.0
ViT-B	EVA-CLIP[44]	IN-1K	300(0.2M-step)	X	84.0(*)
TrV-B	EVA-CLIP[44]	IN-1K	300(0.2M-step)	X	85.6(t)
(b) base-sized model, longer pre-training	(b) base-sized model, longer pre-training	(b) base-sized model, longer pre-training	(b) base-sized model, longer pre-training	(b) base-sized model, longer pre-training	(b) base-sized model, longer pre-training
ViT-B	VQKD-B[92]	IN-1K	1600(1M-step)	X	85.5
TrV-B	EVA-CLIP[44]	IN-1K	1600(1M-step)	X	86.8
(c) base-sized model, longer pre-training& larger dataset	(c) base-sized model, longer pre-training& larger dataset	(c) base-sized model, longer pre-training& larger dataset	(c) base-sized model, longer pre-training& larger dataset	(c) base-sized model, longer pre-training& larger dataset	(c) base-sized model, longer pre-training& larger dataset
ViT-B	VQKD-B[92]	IN-1K	1600(1M-step)	90 epochs,2242	86.5
TrV-B	EVA-CLIP[44]	IN-21K	150(1M-step)	X	87.0

表3：MIM目标表示。当使用足够的计算预算和数据预训练时，与较小的CLIP教师相比，从巨大的EVA-CLIP进行学习可以带来相当大的性能提升。

前馈网络（FFNs）用于特征变换，没有下采样层和多阶段设计[118,41,115]。这使得它成为表征学习的理想测试平台，因为它的视觉结构先验和偏差最小，以及它与掩模建模的自然兼容性，这已被证明是一种简单、强大且可扩展的预训练方法[5, 92, 123, 44]。预训练的普通ViT也可以成功适应需要高分辨率输入和具有可行成本的多尺度表示的挑战性视觉任务[75, 45]。

尽管普通ViT的内部块微架构自2020年Inception以来一直在不断发展[109, 117]，但我们注意到，在视觉表征学习背景下，尚未探索到一些重要的架构进步。这些包括带有sigmoid线性单元（SiLU）作为前馈网络的门控线性单元[37, 110]，子LN[4, 122]作为归一化层，以及用于位置信息注入的2D旋转位置嵌入（RoPE）[113]。

在表2中，我们进行了一系列试点实验研究这些架构修改[1]。掩码EVA-CLIP视觉特征在可见图像块上使用IN-1K训练图像进行300个周期的回归任务，评估是通过在IN-1K上微调预训练的基尺寸模型来完成的。从原始BEiT系列预训练中使用的基线ViT配置[5, 92, 123]（见表2）开始，我们逐步细化模型设计并做出以下观察：(i)SwiGLU FFN的性能在中等，使用的是BEiT中使用的随机权重初始化方法，但使用xavier正则权重初始化48时表现相当好。(ii)子LN与预LN相比略有提高性能(+0.2)。(iii)2D RoPE可以提高性能(+0.4)，而标准相对位置嵌入[109, 5, 92]由于预训练不稳定而受到影响。

method	IN-21K intermed. ft?	IN-1K ft img size	IN-1K ft top-1 acc.	IN-V2 ft top-1 acc.
EVA-02-B	X	1962	87.0	77.6
EVA-02-B	X	4482	88.3	79.5
EVA-02-B	40 epochs, 448°	448	88.6	79.8
EVA-02-L	X	1962	88.9	80.7
EVA-02-L	X	448	89.6	82.3
EVA-02-L	30 epochs, 4482	448	90.0	82.4

表4：更多的扩展可以进一步提高性能。预训练和架构配置在表5中详细说明。“IN-V2”指的是ImageNet-V2[103]。

其他配置保持不变。

最终模型配置（见表2），称为Trans-form Vision（TrV，图2b），与当前领先语言模型的模型架构一致，并且与原始配置相比（即从84.0到85.6），实现了1.6分的整体提升，但接下来将描述的一个警告是。

2.2. 预训练策略

在前一节中，我们选择使用一个拥有十亿参数的巨大CLIP视觉编码器的特征作为我们的MIM伪教师的目标表示。然而，我们尚未解释这一选择的理由。尽管类似的预训练策略在最近的文献中被广泛研究[126, 59, 44, 79, 145]并且被证明是有效的，但它们通常使用来自更小CLIP模型的视觉特征。选择1B参数EVA-CLIP是基于我们的假设，更大的CLIP将为MIM提供更稳健和可迁移的目标表示，并最终导致更好的预训练模型。在表3中，我们研究了不同大小CLIP产生的目标表示的影响。

这是从速成课程中得到的一个警告。乍一看，与较小的VQKD-B[92]和CLIP-B[95]作为MIM教师相比，准确性退化（即从85.0到84.在学生使用基础大小的普通ViT（在[41, 5]中）并且进行了300个周期的IN-1K预训练（见表2和表3）时，与EVA-CLIP目标一起使用。TrV的架构修改在一定程度上补偿了这一点，导致总改进幅度仅为0.6点（在表2和表3中用††表示）。

我们推测，随着教师变得更强，学生在短时间内学习稳健且可迁移的表示变得更加困难。因此，学生需要更广泛的预训练来完全掌握教师的知识。当我们将预训练计划扩展到1600个周期（约100万步），使用EVA-CLIP作为MIM教师的TrV在BEiTv2上产生了1.3点的非平凡改进[92]。此外，在ImageNet-21K上进行纯MIM预训练（在IN-21K上，有1420万像素图像）[39]时，我们的基础大小TrV达到了87.0%的top-1准确率，甚至超过了BEiTv2，后者在IN-1K上进行1600个周期（约100万步）的MIM预训练，并在IN-21K上额外进行了90个周期的中等微调，带有标签。

进一步地，在表4中，我们展示了缩放模型大小，