Paella：实现快速高效文本到图像生成的突破性模型

石菱格Maureen

于 2025-04-16 15:10:29 发布

阅读量910

点赞数 16

本文链接：https://blog.csdn.net/gitblog_01063/article/details/147277491

版权

Paella：实现快速高效文本到图像生成的突破性模型

Paella Official Implementation of Paella https://arxiv.org/abs/2211.07292v2 项目地址: https://gitcode.com/gh_mirrors/pael/Paella

项目介绍

Paella 是一个创新的文本到图像生成模型，它通过少于10个步骤即可生成高保真图像，其独特的速度优化架构能在不到500毫秒内采样单张图像，同时仅拥有573M的参数量。Paella 在压缩和量化后的潜在空间中运行，它基于CLIP嵌入进行条件生成，并采用了一种改进的采样函数。除了文本条件图像生成外，Paella 还能够执行潜在空间的插值以及图像编辑操作，如修补、扩展和结构编辑。

项目技术分析

Paella 的核心在于其速度与效率。在当前的文本到图像生成模型中，大多数先进的模型需要大量的推理步骤来生成高质量的图像，这导致了性能瓶颈，特别是在端用户应用中。Paella 通过以下技术特点实现了性能上的突破：

速度优化的架构：Paella 采用了一种专门为速度设计的架构，能够在极少的推理步骤下生成图像。
潜在空间的压缩与量化：通过在压缩和量化后的潜在空间中操作，Paella 能够减少计算复杂度。
基于CLIP的嵌入条件：Paella 使用CLIP（Contrastive Language–Image Pre-training）嵌入作为条件，使得图像生成更加准确。
改进的采样函数：相比于之前的模型，Paella 的采样函数更加高效，能够更快地生成图像。