
Diffusion Model专栏
文章平均质量分 91
Diffusion Model专栏
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
周报 | 25.3.10-25.3.16文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2025-03-17 17:39:10 · 324 阅读 · 0 评论 -
GiantPandaLLM | 非常简洁的图像复原新方法:退化分类预训练,已中ICLR2025
图像复原是利用模型将低质量(LQ)图像改进为高质量(HQ)图像的任务,在深度学习时代,图像复原任务可以被进一步理解为:以低质量图像为条件生成高质量图像。通用图像复原(Universal Image Restoration, UIR)任务是图像复原的一项重要的子任务。UIR 试图创造一种方法,使得模型能够自主的应对不同退化,并生成语义、细节纹理一致的高质量图像。原创 2025-03-16 21:42:40 · 880 阅读 · 0 评论 -
天才程序员周弈帆 | 扩散模型(Diffusion Model)详解:直观理解、数学原理、PyTorch 实现(下)
在这个项目中,我们要用PyTorch实现一个基于U-Net的DDPM,并在MNIST数据集(经典的手写数字数据集)上训练它。模型几分钟就能训练完,我们可以方便地做各种各样的实验。原创 2025-03-12 17:50:14 · 1090 阅读 · 0 评论 -
天才程序员周弈帆 | 扩散模型(Diffusion Model)详解:直观理解、数学原理、PyTorch 实现(上)
在过去的大半年里,以Stable Diffusion为代表的AI绘画是世界上最为火热的AI方向之一。或许大家会有疑问,Stable Diffusion里的这个"Diffusion"是什么意思?其实,扩散模型(Diffusion Model)正是Stable Diffusion中负责生成图像的模型。想要理解Stable Diffusion的原理,就一定绕不过扩散模型的学习。原创 2025-03-12 17:41:43 · 1086 阅读 · 0 评论 -
周报 | 25.1.6-25.1.12文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2025-01-13 21:05:43 · 563 阅读 · 0 评论 -
机器之心 | 一秒内从单个图像生成3D对象,支持实时编辑,Stability AI推出3D生成新方法SPAR3D
刚刚,Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D(Stable Point Aware 3D),旨在为游戏开发者、产品设计师和环境构建者开拓 3D 原型设计新方式。原创 2025-01-12 20:42:55 · 963 阅读 · 0 评论 -
我爱计算机视觉 | NeurIPS 2024|单步生成:让扩散模型实现高速无损的内容生成
本文介绍了 Score Implicit Matching(SIM) 方法在扩散模型蒸馏中的应用,展示了如何通过新颖的基于得分函数的散度训练来实现单步生成。实验结果验证了 SIM 在多个生成任务 中的优越性能,标志着在快速生成和高质量样本方面的一个重要进展。未来,随着对 SIM 方法的进一步研究和优化,我们相信其将在更多领域展现出更大的应用潜力,推动生成模型的发展。原创 2024-11-20 16:45:59 · 1158 阅读 · 0 评论 -
机器之心 | 真·打字P图!字节发布新模型SeedEdit,一句话爆改世界名画,可免费体验
字节豆包大模型又又又上新了!11 月 11 日,字节跳动豆包大模型团队推出了最新图像编辑模型 SeedEdit,主打一句话轻松 P 图。它是国内首个产品化的通用图像编辑模型,无需描边涂抹,仅使用简单的自然语言,就能换背景、转风格,或者在指定区域进行元素的增删和替换。原创 2024-11-12 14:24:33 · 1275 阅读 · 0 评论 -
集智书童 | DuoDiff: 提升浅层 Transformer 性能的扩散模型, 双 Backbone 件扩散模型在图像处理中的应用 !
扩散模型[21]在各种模态的生成任务上近期展现了令人印象深刻的表现,包括图像[6; 3],视频[7; 8],音频[12],以及分子[9]。然而,使用扩散模型生成新样本的过程可能较慢,因为需要多次调用去噪网络[25]。为了提高采样效率[26],一些最具前景的方法关注于减少采样步骤(例如,DDIM[22]和基于蒸馏的方法[19; 15])或改变采样空间(例如,潜在扩散[18])。原创 2024-11-08 17:20:07 · 1214 阅读 · 0 评论 -
极市平台 | NeurIPS 2024|浙大/微信/清华提出:彻底解决扩散模型反演问题
本文介绍了浙江大学、微信和清华大学联合提出的BELM算法,这是一种基于双向显式线性多步法的扩散模型精确反演采样器,它能够彻底解决扩散模型反演问题,同时提升生成样本的质量。BELM算法通过截断误差分析确定了最优采样器系数,具有精确反演性质,并在图像与视频编辑、插值等下游任务中展现出广泛的应用前景原创 2024-11-04 20:16:58 · 996 阅读 · 0 评论 -
新智元 | 微调Flux席卷全网,外国小哥一人组一队漫威英雄!
席卷开源界的AI生图王者诞生了!发布半个月,Flux已经成为替代Midjourney的宠儿。各路开发者们开始用自己的照片微调LoRA,一人拿捏多种风格。Midjourney之后,从未见人们对某个AI生图应用,如此疯狂着迷。Flux的横空出世,意味着AI图像生成迈入了一个全新的阶段。马斯克本人表示,真假已经傻傻分不清。原创 2024-08-19 21:01:31 · 1481 阅读 · 0 评论 -
极市平台 | 如何通俗理解扩散模型?
还有谁没有看过diffusion的工作,席卷AI圈的diffusion到底是什么?本文作者用尽量通俗的描述向大家解释 diffusion 的来龙去脉。实验室最近人人都在做扩散,从连续到离散,从 CV 到 NLP,基本上都被 diffusion 洗了一遍。但是观察发现,里面的数学基础并不是模型应用的必须。其实大部分的研究者都不需要理解扩散模型的数学本质,更需要的是对扩散模型的原理的经验化理解,从而应用到 research 里面去。笔者做 VAE 和 diffussion 也有一段时间了,就在这里通俗地解释原创 2024-08-16 20:47:37 · 1079 阅读 · 0 评论 -
我爱计算机视觉 | Diffusion反馈强势助力CLIP秒变火眼金睛:北京智源研究院、中科院自动化所联合推出DIVA
本文分享论文Diffusion Feedback Helps CLIP See Better,专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。原创 2024-08-04 17:29:50 · 872 阅读 · 0 评论 -
江大白 | 何凯明入职 MIT,首次带队提出Diffusion Loss,扩散模型思想提升生成速度和效果 !
在图像生成领域中,作者观察到并不是自回归建模的必要条件,并提出通过在连续值域上,操作的扩散过程来对每个标记的概率分布,进行建模。改进后的图像生成器在生成速度与效果上,都取得了巨大的提升。传统观点认为,用于通常伴随着向量量化标记。作者观察到,尽管离散值空间可以促进表示分类分布,但这并非自回归建模的必要条件。在这项工作中,作者提出使用扩散过程来建模每个标记的概率分布,这使得作者能够在连续值空间中应用自回归模型。原创 2024-06-30 21:17:58 · 1723 阅读 · 0 评论 -
天才程序员周弈帆 | Stable Diffusion 解读(四):Diffusers实现源码解读
Diffusers是由Hugging Face维护的一套Diffusion框架。这个库的代码被封装进了一个Python模块里,我们可以在安装了Diffusers的Python环境中用import diffusers随时调用该库。相比之下,Diffusers的代码架构更加清楚,且各类Stable Diffusion的新技术都会及时集成进Diffusers库中。原创 2024-06-25 17:54:56 · 3242 阅读 · 0 评论 -
极市平台 | Mamba联名Diffusion?DiM:无需微调,高分辨图像生成更高效!
本文提出了一种新的基于Mamba的扩散模型 DiM,用于高效的高分辨率图像生成。Mamba 本是用于处理一维信号的模型,作者提出了几种有效的设计来使其能够对二维图像进行建模。原创 2024-06-13 17:58:59 · 1905 阅读 · 0 评论 -
极市平台 | 十分钟读懂Diffusion:图解Diffusion扩散模型
在之前的文章中,我们曾经介绍过Diffusion的具体原理,但是讲的还是比较偏理论,为了让大家快速了解Diffusion原理,这篇文章我们通过图解的方式。原创 2024-04-12 13:04:49 · 1357 阅读 · 0 评论 -
天才程序员周弈帆 | Stable Diffusion 解读(二):论文精读
简单来说,Stable Diffusion是一个两阶段的图像生成模型,它先用一个AE压缩图像,再在压缩图像所在的隐空间上用DDPM生成图像。在这篇文章中,我们来精读Stable Diffusion的论文:High-Resolution Image Synthesis with Latent Diffusion Models。原创 2024-06-10 10:16:27 · 3597 阅读 · 0 评论 -
GiantPandaCV | 一文弄懂 Diffusion Model,适合入门!(建议收藏)
最近AI 绘图非常的火,其背后用到的核心技术之一就是Diffusion Model(扩散模型),虽然想要完全弄懂 Diffusion Model 和其中复杂的公式推导需要掌握比较多的前置数学知识,但这并不妨碍我们去理解其原理。接下来会以笔者所理解的角度去讲解什么是 Diffusion Model。Diffusion Model 首先定义了一个前向扩散过程,总共包含T最左边的蓝色圆圈x0表示真实自然图像,对应下方的狗子图片。最右边的蓝色圆圈xT则表示纯高斯噪声,对应下方的噪声图片。原创 2024-02-13 22:10:31 · 2860 阅读 · 0 评论 -
新智元 | Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
Stability AI放出了号称能暴打闭源模型的Stable Diffusion 3的技术报告,采用DiT构架的新模型在灵活性和性能上都达到了新的高度。,今天公布了详细的技术报告。论文深入分析了——改进版的Diffusion模型和一个基于DiT的文生图全新架构!原创 2024-03-12 22:05:40 · 1198 阅读 · 0 评论 -
天才程序员周弈帆 | Stable Diffusion 解读(一):回顾早期工作
Stable Diffusion由两类AE的变种发展而来,一类是有强大生成能力却需要耗费大量运算资源的DDPM,一类是能够以较高保真度压缩图像的VQVAE。Stable Diffusion是一个两阶段的图像生成模型,它先用一个使用KL正则化或VQ正则化的VQGAN来实现图像压缩,再用DDPM生成压缩图像。可以把额外的约束(如文字)输入进DDPM以实现带约束图像生成。原创 2024-06-08 20:48:29 · 2366 阅读 · 2 评论 -
天才程序员周弈帆 | Stable Diffusion 解读(三):原版实现源码解读(篇幅略长,建议收藏!)
看完了Stable Diffusion的论文,在最后这几篇文章里,我们来学习Stable Diffusion的代码实现。具体来说,我们会学习Stable Diffusion官方仓库及Diffusers开源库中有关采样算法和U-Net的代码,而不会学习有关训练、VAE、text encoder (CLIP) 的代码。如今大多数工作都只会用到预训练的Stable Diffusion,只学采样算法和U-Net代码就能理解大多数工作了。原创 2024-06-18 23:53:31 · 2880 阅读 · 0 评论