极市平台 | Mamba联名Diffusion?DiM:无需微调,高分辨图像生成更高效!

本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。

原文链接:Mamba联名Diffusion?DiM:无需微调,高分辨图像生成更高效!

极市导读

本文提出了一种新的基于 Mamba 的扩散模型 DiM,用于高效的高分辨率图像生成。Mamba 本是用于处理一维信号的模型,作者提出了几种有效的设计来使其能够对二维图像进行建模。

0 本文目录

1 DiM:高效高分辨率图像生成的 Diffusion Mamba
(来自香港大学,华为诺亚方舟实验室)
1 DiM 论文解读
1.1 用 Mamba 架构进行高分辨率图像生成
1.2 状态空间模型
1.3 Diffusion Mamba 架构
1.4 训练和推理策略
1.5 实验设置
1.6 效率分析
1.7 实验结果

太长不看版

扩散模型在图像生成方面取得了巨大成功,Backbone 从 U-Net 演变到 Vision Transformer。然而, Transformer 的计算成本与 token 的数量成二次方,在处理高分辨率图像时面临重大挑战。本文提出 Diffusion Mamba (DiM),它结合了 Mamba 的效率,且具有扩散模型的表达能力,以实现高效的高分辨率图像合成。Mamba 是一种基于状态空间模型 (State Space Models, SSM) 的序列模型。

为了解决 Mamba 不能泛化到 2D 信号的挑战,作者提出了几种架构设计,包括多方向扫描、每行和列末尾的 learnable padding tokens 以及轻量级局部特征增强。DiM 架构可以高效地生成高分辨率图像。此外,为了进一步提高 DiM 高分辨率图像生成的训练效率,作者研究了在低分辨率图像 (256×256) 上预训练 DiM 的 "weak-to-strong" 训练策略,然后在高分辨率图像上微调它 (512×512)。作者进一步探索了 training-free 的上采样策略,使模型能够生成更高分辨率的图像 (例如 1024×1024 和 1536×1536),而无需进一步微调。实验证明了 DiM 的有效性和效率。

图1:本文模型在 ImageNet 上训练的图像生成的图像。分辨率分别为 1024×1024,512×512 和 256×256,classifier-free guidance 权重为 4.0

本文做了哪些具体的工作

  1. 提出了一种新的基于 Mamba 的扩散模型 DiM,用于高效的高分辨率图像生成。Mamba 本是用于处理一维信号的模型,作者提出了几种有效的设计来使其能够对二维图像进行建模。

  2. 为了解决高分辨率图像训练的高成本,作者研究了微调在低分辨率图像上预训练的 DiM 以进行高分辨率图像生成的策略。此外还探索了 training-free 的上采样方案,使模型在无需进一步的微调的情况下生成更高分辨率的图像。

  3. 在 ImageNet 和 CIFAR 上的实验证明了 DiM 在高分辨率图像生成中的训练效率、推理效率和有效性。

1 DiM:高效高分辨率图像生成的 Diffusion Mamba

论文名称:DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis (Arxiv 2024.05)

论文地址:

https://arxiv.org/pdf/2405.14224

代码链接:

http://github.com/tyshiwo1/DiM-DiffusionMamba/

1.1 用 Mamba 架构进行高分辨率图像生成

扩散模型在图像生成方面取得了巨大的成功。由于 Transformer 架构的有效性和可扩展性,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值