加利福尼亚大学提出TULIP！视觉-语言模型的新王者！AI性能全面碾压CLIP！

本文链接：https://blog.csdn.net/DataSourceAI/article/details/146429673

🌐 社群导航

🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名：TULIP: Towards Unified Language-Image Pretraining

论文链接：https://arxiv.org/pdf/2503.15485

开源代码：https://tulip-berkeley.github.io/

导读

对比图像 - 文本（CIT）模型，包括CLIP、SigLIP和ALIGN，在高级视觉 - 语言任务中展现了最先进的性能，在各种应用中表现出色，例如根据文本检索图像以及反之亦然、执行零样本分类，并且作为视觉 - 语言模型的核心组件。它们的成功源于能够利用数十亿规模的数据集在图像和语言输入之间创建一个共享的嵌入空间，在这个空间中，相似的概念彼此靠近，不同的概念彼此远离。

简介

尽管像CLIP和SigLIP这样的图像 - 文本对比模型最近取得了成功，但这些模型在以视觉为中心、需要高保真图像理解的任务中往往表现不佳，例如计数、深度估计和细粒度目标识别。这些模型通过执行语言对齐，往往更优先考虑高级语义而非视觉理解，从而削弱了它们的图像理解能力。另一方面，专注于视觉的模型在处理视觉信息方面表现出色，但难以理解语言，限制了它们在语言驱动任务中的灵活性。在这项工作中，我们推出了TULIP，这是一种开源的、可直接替代现有类CLIP模型的方案。我们的方法利用生成式数据增强、增强的图像 - 图像和文本 - 文本对比学习以及图像/文本重建正则化，在保留全局语义对齐的同时学习细粒度的视觉特征。我们的方法在参数规模超过10亿时，在多个基准测试中优于现有的最先进（SOTA）模型，在ImageNet - 1K上实现了新的SOTA零样本性能，在RxRx1的少样本分类线性探测中比SigLIP提高了，并改进了视觉 - 语言模型，在MMVP上比SigLIP的得分高出以上。

方法与模型

我们介绍 TULIP，这是一个高性能的图像 - 文本对比模型，它统一了多种不同的对比学习范式以改进表征学习。TULIP 的几项贡献背后的基本见解是，图像及其相关的描述代表了潜在“现实”的不同“视图”或视角，这一观点最近在 Huh 等人的研究 [27] 中得到了探索。例如，一张猫坐在长椅上的图片和描述“一只猫正坐在长椅上”呈现了对同一潜在真实情况的不同观察。对比学习的作用是以无监督的方式统一这些“视图”——将多个视图投影到表征潜在空间中的同一点。因此，定义什么构成潜在内容的有效视图是开发对比学习方法的基础。

1. 多样化对比视图

以往的图像 - 文本对比学习方法主要是将图像与其对应的文本进行对比，而图像 - 图像对比学习方法则是将图像与其增强版本进行对比。我们提出将这些方法统一起来，将图像或文本的每一种变换都视为潜在语义内容的有效视图，然后将其纳入对比学习框架。

因此，我们的对比学习损失包含三个关键组成部分：图像 - 文本对比学习、图像 - 图像对比学习和文本 - 文本对比学习，如图1所示。

图1. TULIP概述。现有的对比图像 - 文本模型在高保真视觉理解方面存在困难。TULIP是CLIP的直接替代方案，它利用生成式数据增强、全局 - 局部逐块图像对比学习和基于重建的特征正则化来学习鲁棒的视觉特征和细粒度的语言定位。

我们方法中的对比损失源自SigLIP [48]。将和表示为来自同一底层内容的两个视图，批量大小为：

图像 - 文本对比学习。对于批次中的每个图像，我们使用SigLIP中的标准图像 - 文本对比学习目标：

图像 - 图像对比学习。为了构建变换后的图像，我们利用生成模型，而不是对比学习中常用的传统固定增强集。我们的生成式变换明显优于DINO等方法中使用的标准增强技术，从而产生更鲁棒的表示。我们将在3.2小节中详细介绍生成式变换。给定原始图像嵌入和变换后的图像嵌入，我们将图像 - 图像对比损失定义为：

文本 - 文本对比学习。为了增强文本表示，我们使用语言模型进行生成式增强，包括句法释义和同义词替换（见3.2小节）。给定原始文本嵌入和变换后的文本嵌入，我们将文本 - 文本对比损失定义为：

我们的整体对比学习损失如下：

图像编码器。TULIP的图像编码器如图2所示。遵循DINOv2，我们使用指数移动平均（EMA）教师模型，并结合局部/全局视图分割（教师模型仅查看全局视图，而学生模型同时查看全局和局部视图）。与DINOv2类似，我们利用教师模型生成的嵌入进行图像 - 图像对比学习和图像 - 文本对比学习。在我们的实验中，图像编码器采用SigLIP图像编码器的形式，它是一个视觉Transformer（ViT）模型 [16]。路径中显示的重建正则化将在3.3小节中讨论。

图 2. TULIP 图像编码器。图像会经历传统增强（如裁剪和颜色抖动）以及通过进行的生成式增强，利用大型生成模型创建语义一致或语义改变的视图。这些视图随后用于图像 - 图像和图像 - 文本对比学习。此外，还应用了基于掩码自编码器（MAE）的重建损失，以鼓励模型对语义和细粒度细节进行编码。

文本编码器。TULIP的文本编码器如图3所示。对于文本编码，视图中没有明确的全局/局部结构，因此我们不使用EMA教师模型，而是使用直接绑定权重的文本编码器。对于文本编码器，我们使用SigLIP的语言编码器。重建正则化将在3.3小节中进一步讨论。

图3. TULIP文本编码器。文本通过使用大语言模型进行释义和可控语义修改来进行生成式增强，生成正对比对和负对比对。这些对比对用于基于SigLIP目标的文本 - 文本和图像 - 文本对比学习。与图像重建类似，使用基于T5的因果解码器进行文本重建，以确保模型保留高级语义和细粒度的语言细节。

2. GeCo：生成多样化的对比视图

现有的对比学习模型专注于使用固定的视图集来迫使模型学习语义不变性。虽然固定潜在视图集很简单，但选择合适的视图是一项具有挑战性的任务。所选的特定视图集也会影响模型学习到的特征水平。在DINO中，模型被训练为将图像的局部/小裁剪与全局裁剪相匹配，从而产生强大的全局语义特征，但这通常会导致模型忽略对象之间的复杂关系。最近的研究表明，许多生成模型本质上以自然水平编码语义，例如，GPT - 4V在测量自然语言中的语义距离时表现良好 [11]，而Stable Diffusion潜在编码图像之间的语义对应关系 [26]。这激发了一种视图生成方法，该方法除了一组简单的像素级增强外，还依赖于这些大型生成模型编码的语义信息。

为了实现这种生成式增强，我们引入了GeCo（生成式对比视图增强），这是一种利用大型生成模型（包括语言和图像模型）在训练期间自动生成语义等价（以及语义不同但视觉上相似）增强的方法。GeCo在感知、空间和时间维度上自动改变图像和文本，以创建正对比对和负对比对，并将其输入到构成TULIP的对比组件中。GeCo生成两种类型的视图对：

正视图是相同内容的视图，它们以不同（但相似）的方式呈现相同的语义。这些视图在语义空间中应该“更接近”。例如，稍微绕着一个物体旋转相机不会显著改变图像的语义，但可以改变局部像素值。
负视图是语义不同但包含许多相似图像特征的内容视图，例如，在“自行车”的图像中添加一辆“汽车”会创建一个语义不同但包含许多相同视觉特征的新图像。

不幸的是，这样的配对数据通常不可用，因此，GeCo利用生成式建模从现有的图像和文本对中生成这些正视图和负视图。的一般过程如图4所示，由两个部分组成：语言增强和图像增强。

图4. GeCo概述。我们的生成式增强框架利用大型生成模型，通过为图像和文本生成正增强和负增强来创建多样化的对比视图。对于文本增强，我们使用Llama - 3.1 - 8B - Instruct来生成释义和语义改变的文本变体。对于图像增强，我们使用软提示微调基于指令的图像编辑模型（例如InstructPix2Pix），以生成语义一致（正）和语义改变（负）的视图。

语言增强。为了增强语言，几种方法（主要针对减少幻觉）采用了随机删除单词或用同义词替换单词的方式[41]。在这里，我们利用大型语言模型（Llama - 3.1 - 8B - Instruct）来进行类似风格的增强。我们要求模型直接对文本内容进行释义，以产生正释义（语义相同）和负释义（语义有细微改变）。通过依靠语言模型来做出这个决策，我们可以利用大语言模型（LLM）潜在的语义理解能力，避免预先定义特定的语义相似度水平。附录D中给出的提示对于正增强和负增强是不同的。具体来说，在生成正样本时，大语言模型不应改变诸如对象、数量、布局等语义，而可以通过句法、同义词等对文本进行释义。在生成负样本时，我们可以遵循类似的逻辑来改变文本的语义，例如将“5个苹果”改为“4个苹果”，或者改变图像的组成部分，例如将“桌子左边的椅子”改为“椅子左边的桌子”。

图5. （上）GeCo生成图像和文本的正增强和负增强，（下）TULIP在训练时使用这些增强并赋予相应的权重（正配对为 +1，负配对为 -1，忽略为0）。这里，生成的正图像表示从不同视角看的同一只鸟，而负图像是在相同物理位置的另一只不同的鸟（颜色、面部结构不同）。

图像增强。为了增强图像，我们（使用软提示）微调基于指令的图像编辑生成模型，以生成图像的正增强和负增强。形式上，对于一个图像编辑模型，其中是图像，是向量嵌入，我们学习与正视图和负视图对应的嵌入（正）和（负）。为了训练这些嵌入，我们利用了几个“自然”的图像增强来源。除了传统的图像增强（即简单的颜色抖动、翻转、全局裁剪、高斯模糊等），我们还考虑了其他几种增强方式。对于正训练，主要增加的是视频数据，我们认为紧密相关的帧（相隔）在语义上是相同的，以及多视图数据，我们认为同一物体的多个视图在语义上是相同的。对于负训练，我们使用大规模数据集进行语义图像编辑，因为每次图像编辑都编码了图像的语义转换。

总的来说，TULIP支持获取一张图像和配对文本，并生成增强的正视图和负视图。然后，我们可以使用这些视图进行训练，既可以在训练时推理阶段在线使用，也可以像图5所示的那样，在训练过程中缓存增强结果并重复使用。更正式地说，在图像 - 图像或文本 - 文本对比学习的情况下，GeCo接收一个输入（图像或文本），并生成一个增强的正视图和一个增强的负视图。遵循3.1小节的符号表示（损失为），设为输入图像（或文本），设为该图像（或文本）的正增强视图和负增强视图。将定义为与负视图对应的索引集。在公式1中，我们设置如下：

这意味着只要第个视图为负视图，就有（两个元素为负对）。在图像 - 文本对比学习中，设为生成的增强文本。GeCo仅为图像和文本生成负增强视图，并且我们设置如下：

请注意，这省略了和都属于的对的计算（因为它们的对应关系未知），并且专注于我们知道图像或文本与真实值不匹配的情况。

3. 基于重建的正则化

虽然仅通过生成式增强纳入广泛的对比视图有助于提高模型在细粒度语义上的性能，但这个过程也会在我们的模型中引入隐藏的不变性，即图像的不同增强编码到同一点。虽然这种不变性有助于表征学习，但它通常会导致在高保真度以视觉为中心的任务（如颜色识别、方向或深度估计）上的性能下降。为了鼓励模型在高频信息和语义表征之间取得平衡，我们还在模型的潜在向量中添加了一个像素级重建目标。其基本假设是，如果模型能够从潜在空间中编码重建图像本身所需的信息，那么它也会编码关键的视觉细节（如颜色/纹理），同时在语义空间中保持不变性（由于对比目标）。

图像路径的重建目标如图2所示，文本路径的重建目标如图3所示。对于图像重建，我们利用一个以嵌入作为信息“瓶颈”的掩码自编码器（MAE）风格的模型。使用MAE鼓励模型编码形状信息和高熵细节，而不是全局模式（因为这些全局模式可以很容易地从未掩码的块中推断出来）。对于文本模型，我们利用一个基于T5的因果解码器，以文本嵌入作为初始文本标记。正则化的损失格式如下：

其中和表示重建损失与我们网络中其他目标之间的权重权衡。由于在训练过程中重建计算成本可能很高，为了确保最小的计算开销，我们在两种模态中都计算重建，但每次只使用两种模态之一的潜在向量。例如，在图像 - 图像对比学习中，我们从其中一个图像嵌入中计算重建损失，而在后续的图像 - 文本对比学习中，也从预先存在的图像嵌入中计算文本重建损失（这是合理的，因为对比目标鼓励每个正样本对产生的向量在收敛时相同）。

总体而言，TULIP通过损失的加权组合进行一次性预训练：

实验与结果

1. 实验设计

数据。如3.2小节所述，为了训练GeCo（生成式对比模型），我们为扩散模型使用视频和多视图数据集。对于下一帧预测，我们从WebVid - 10M数据集[3]中采样连续帧（在0.2秒内）。对于多视图预测，我们使用MVImgNet[52]，对于负视图生成，我们纳入了In - structPix2Pix[8]的数据集。为了对文本进行释义增强，我们利用了Llama - 3.1 - 8B - Instruct模型[17]。

对于模型预训练，我们使用DataComp - 1B数据集[21]训练TULIP（文本 - 图像语言预训练模型）的所有变体。为了增强数据，我们随机用Li等人[30]的重新标注数据替换的原始字幕。在文本重建过程中，我们发现增加重新标注数据的比例可以改善结果，因此我们用重新标注的数据替换的基础字幕。

优化。我们使用Adam优化器，学习率为，权重衰减为，并将梯度裁剪到范数2。我们将批量大小设置为49152。我们的模型在几天的时间里使用多达32个A100 GPU进行训练。

2. 视觉 - 语言理解

我们的第一个实验重点是评估TULIP学习到的图像 - 文本表示的质量，在此我们探索零样本分类、文本到图像和图像到文本的检索，以及针对细粒度分类数据集的线性探测。

零样本分类。我们首先按照翟等人 [54] 提出的通用协议，在零样本分类任务（ImageNet [15]（单样本/十样本）、ImageNet v2 [39]、ImageNet ReaL [7] 和 ObjectNet [4]）上对 TULIP 进行基准测试，结果见表 1。总体而言，TULIP 在其参数类别内优于现有方法，并且相较于现有开源模型（如 OpenCLIP）有显著改进。TULIP

表1. TULIP与几个现有的最先进视觉和语言模型在ImageNet - 1K（验证集、v2、ReaL、10样本）、ObjectNet上的零样本分类结果（准确率百分比），以及文本 - 图像/图像 - 文本检索结果。

文本到图像检索。除了零样本分类，我们还在图像检索基准测试（使用 COCO [31] 和 Flickr - 30K [37] 数据集进行文本到图像和图像到文本的检索）上对 TULIP 进行基准测试，TULIP 显著优于现有的基准模型，尤其是在大规模的文本到图像建模方面。

线性探测。虽然 TULIP 在大规模目标理解基准测试中表现出色，但我们在这项工作中旨在实现的许多改进都集中在理解细粒度细节上。为此，我们探索了 TULIP 在特定领域数据上训练线性探测器时的性能。为了评估这种性能，我们在 IN - 1K [15]、iNAT - 18 [49]、CIFAR - 100 [29]、RxRx1 [43]、fMoW [14] 和 Infographic [34] 数据集上进行评估（数据集的详细描述见附录 C）。表 2 中的结果表明，TULIP 在面向细粒度/细节的任务中明显优于现有的视觉和语言表征（例如，在上的性能几乎是 SigLIP 的两倍，并且性能高于单独的 DINOv2），同时保持了高质量的语言表征（相较于 DINOv2 有 24% 的相对提升，并且在 Infographic 数据集上优于 SigLIP）。

表2. 对现有表征模型学习到的表征应用线性探针的结果（准确率百分比）。TULIP在所有数据集上都表现出色，甚至显著优于规模大得多的视觉基础模型，如AIMv2 3B。

组合推理。为了评估 TULIP 理解图像组合的能力，我们进一步在 Winnoground 数据集 [44] 上进行评估。结果见表 3，这些结果清楚地表明，与现有的视觉和语言模型相比，TULIP 能够进行高水平的视觉推理。

表3. 在Winoground数据集上，通过文本、图像和分组得分指标得出的结果（准确率百分比）。郁金香模型（TULIP）是唯一在分组得分指标上表现优于随机猜测的跨模态推理模型（CIT）。

3. 视觉与语言模型

开发强大的视觉与语言模型的动机之一是将其作为大规模多模态模型（如LLaVA [32, 33]）的特征编码器。为了评估我们的模型在这些应用中的性能，我们使用LLaVA混合数据，通过一组视觉编码器对Llama - 3.2 11B进行微调。然后，我们在几个基准测试中评估其性能，包括BLINK基准测试 [20]（包含14项主要的感知任务，如对应关系、视觉相似度和深度估计）、MMVP基准测试 [46]（测试模型的视觉能力）和LLaVA基准测试 [32]（测试模型进行对话、详细描述和复杂推理的能力）。

BLINK数据集上的结果如表4所示。我们可以看到，TULIP在所有类型的问题上都表现出色，与基础方法相比，在视觉驱动的任务中表现尤为突出，在空间推理和定位等任务中，TULIP的表现优于GPT - 4o。

表 4. BLINK 基准测试的结果（准确率 %）。TULIP 在所有类别中都表现出色，尤其在视觉驱动的任务中表现卓越，在某些情况下优于 GPT - 4o。

表5. Llama - 3.211B在MMVP和LLaVA基准测试中与多个视觉模型进行微调的结果。虽然LLaVA基准测试的性能受限于大语言模型（LLM）/训练架构，但MMVP基准测试显示出对视觉表征质量的依赖。

MMVP和LLaVA上的结果如表5所示。虽然经过DINOv2微调的模型在MMVP基准测试中表现良好，但在以语言为中心的任务中表现不佳；而CLIP风格的模型在以语言为中心的任务中表现更好，但在视觉感知方面存在困难。TULIP能够在单一模型中兼顾两者的优势，在DINOv2和SigLIP各自的优势任务中表现更优。

消融实验。表5还展示了去除TULIP几个组件后的性能。我们可以看到，MMVP上的最大改进来自图像 - 图像对比学习以及我们的基础数据训练流程。重建有助于进一步提高视觉和LLaVA基准测试的性能。GeCo主要提高以视觉为中心的任务的性能。有趣的是，LLaVA基准测试的性能似乎已达到饱和（在规模和改进方面），这表明要提高该任务的性能，需要改进大语言模型或视觉适配器。

总结

这项工作介绍了TULIP，这是一系列多模态自监督图像 - 文本对比基础模型，它在学习细粒度视觉特征的同时保持全局语义对齐。通过将图像 - 图像对比学习与多模态生成式数据增强相结合，TULIP在参数规模达到的一系列基准测试中取得了最优性能。TULIP仅仅是多视图和生成视图模型的开端。随着多模态系统的不断发展，未来的工作可以探索更广泛的模态集成和更高效的扩展技术，以突破视觉 - 语言理解的界限。