江大白 | 何凯明入职 MIT,首次带队提出Diffusion Loss,扩散模型思想提升生成速度和效果 !

本文来源公众号“江大白”,仅用于学术分享,侵权删,干货满满。

原文链接:何凯明入职 MIT,首次带队提出Diffusion Loss,扩散模型思想提升生成速度和效果 !

导读

在图像生成领域中,作者观察到向量量化标记并不是自回归建模的必要条件,并提出通过在连续值域上,操作的扩散过程来对每个标记的概率分布,进行建模。改进后的图像生成器在生成速度与效果上,都取得了巨大的提升。

传统观点认为,用于图像生成的自回归模型通常伴随着向量量化标记。作者观察到,尽管离散值空间可以促进表示分类分布,但这并非自回归建模的必要条件。

在这项工作中,作者提出使用扩散过程来建模每个标记的概率分布,这使得作者能够在连续值空间中应用自回归模型。作者不是使用分类交叉熵损失,而是定义了一个扩散损失函数来建模每个标记的概率。

这种方法消除了对离散值标记器的需求。作者在广泛的情况下评估了其有效性,包括标准自回归模型广义 Mask 自回归(MAR)变体。

通过移除向量量化,作者的图像生成器在享受序列建模速度优势的同时,取得了强大的成果。

作者希望这项工作将激发在其他连续值领域和应用中使用自回归生成的兴趣。

论文链接:https://arxiv.org/pdf/2406.11838

1 Introduction

自回归模型目前是自然语言处理中生成模型的实际解决方案。这些模型基于前面的词作为输入来预测序列中的下一个词或标记。由于语言的离散性质,这些模型的输入和输出处于分类的、离散值的空间。这种普遍的方法导致人们普遍认为自回归模型与离散表示固有地联系在一起。

因此,将自回归模型推广到连续值域(尤其是图像生成)的研究一直集中在数据离散化上[6; 13; 40]。通常采用的策略是训练一个针对图像的离散值分词器,这涉及到通过向量量化(VQ)获得的有限词汇[51; 41]。

然后自回归模型在离散值标记空间上操作,类似于它们的语言对应物。

在这项工作中,作者旨在回答以下问题:“自回归模型与向量量化表示结合是必要的吗?”作者注意到自回归的特性,即“基于前面的标记预测下一个标记”,与值是离散的还是连续的无关。需要的是对每个标记的概率分布进行建模,这可以通过损失函数来衡量,并从中抽取样本。离散值表示可以通过分类分布方便地建模,但这在概念上并非必要。如果提出每个标记概率分布的其他模型,自回归模型可以在没有向量量化的情况下处理。

基于这一观察,作者提出通过在连续值域上操作的扩散过程来对每个标记的概率分布进行建模。作者的方法论利用了扩散模型[45; 24; 33; 10]的原理来表示任意的概率分布。具体来说,作者的方法自回归地为每个标记预测一个向量z,该向量作为去噪网络(如一个小型MLP)的条件。去噪扩散过程使作者能够表示输出x的潜在分布p(x|z)(图1)。这个小型的去噪网络与自回归模型一起训练,以连续值标记作为输入和目标。从概念上讲,这个应用于每个标记的小型预测头就像一个用于衡量z质量的损失函数。作者将这个损失函数称为“扩散损失”

作者的方法消除了对离散值分词器的需求。向量量化分词器难以训练,且对梯度近似策略敏感。它们的重建质量通常比连续值对应物差[42]。作者的方法允许自回归模型享受高质量、非量化分词器的优点。

为了扩大范围,作者进一步将标准的自回归(AR)模型[13]和 Mask 生成模型[4; 29]统一到一个广义的自回归框架中(图3)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值