
多模态学习
文章平均质量分 93
Jeremy_lf
知所先后
展开
-
【图像生成之21】融合了Transformer与Diffusion,Meta新作Transfusion实现图像与语言大一统
我们介绍了Transfusion,这是一种在离散和连续数据上训练多模态模型的方法。Transfusion将语言建模损失函数(下一个token预测)与扩散相结合,在混合模态序列上训练单个Transformer。我们在文本和图像数据的混合上从头开始预训练多达7B个参数的多个Transfusion模型,建立了关于各种单模态和跨模态基准的缩放规律。我们的实验表明,Transfusion的缩放效果明显优于量化图像和在离散图像标记上训练语言模型。原创 2025-04-12 21:31:41 · 1013 阅读 · 0 评论 -
【图像生成之22】CVPR024—SwiftBrush基于变分分数蒸馏的文生图扩散模型
知识蒸馏是一种迁移学习方法,其灵感来源于人类学习过程,即知识从更有知识的教师模型传递给知识较少的学生模型。原创 2025-04-12 21:37:58 · 1008 阅读 · 0 评论 -
【学习笔记2】一站式大模型微调框架LLaMA-Factory—训练数据
通过系统提示词,您可以为AI设定一个特定的角色(如“你是一位客服助手”)、任务目标(如“用简短的语言回答”)或对话风格(如“保持友好且专业的语气”)。原创 2025-04-27 13:00:22 · 1143 阅读 · 0 评论 -
【学习笔记1】一站式大语言模型微调框架LLaMA-Factory
LLaMA-Factory(Large Language Model Factory)是一个开源的、专注于大型语言模型(LLM)微调与部署的框架,由北航团队开发并维护。支持主流开源模型:LLaMA(包括LLaMA-2、LLaMA-3)、BLOOM、Mistral、Baichuan、Qwen、ChatGLM等。LoRA(低秩适配)、QLoRA(4-bit量化+LoRA),显存占用降低至单卡消费级GPU(如RTX 3090)即可训练7B/13B模型。学习地址:https://llamafactory.cn/原创 2025-04-27 12:52:36 · 1129 阅读 · 0 评论 -
【生成模型之二十】一种无需微调遵循文本指令的图像编辑算法—InstructPix2Pix
论文:InstructPix2Pix: Learning to Follow Image Editing Instructions类型:Image Editing\Text-to-Image总结:提出了一种遵循文本指令的图像编辑算法,利用GPT-3与SD生成三元图像编辑训练数据,包括输入caption、编辑指令、输出caption,利用prompt-to-prompt来保证图像非编辑内容一致;原创 2025-03-30 00:18:49 · 761 阅读 · 0 评论 -
【生成模型之十七】IP-Adapter: Text Compatible Image Prompt Adapter forText-to-Image Diffusion Models
解决问题:文本prompt工程比较复杂很难描述清楚,尽管现有的image prompt从预训练模型直接微调的方法是有效的,但它们需要大量的计算资源,并且与其他基础模型、文本提示和结构控件不兼容。因此提出了一种有效且轻量的adapter,用于实现预训练文本到图像扩散模型的图像提示功能。核心思想:IP-Adapter的关键设计是解耦的交叉注意力机制,该机制将文本特征和图像特征的交叉注意力层分开。尽管我们的方法很简单,但只有22M参数的IP适配器可以实现与完全微调的图像提示模型相当甚至更好的性能。原创 2025-03-11 21:51:52 · 871 阅读 · 0 评论 -
【图像生成之十八】Seedream 2.0
论文:Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model类型:文生图(支持中英文)交流:添加VX:lf2637649812。原创 2025-03-22 17:07:22 · 1088 阅读 · 0 评论 -
【生成模型之十四】Visual Autoregressive Modeling
论文:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction。原创 2025-02-08 21:15:04 · 937 阅读 · 0 评论 -
【生成模型之十五】BrushNet
Limitations and Future Work. BrushNet仍然存在一些局限性:(1)我们的模型生成的质量和内容在很大程度上取决于所选的基础模型。(2) 即使使用BrushNet,在给定的掩码形状异常或不规则,或者给定的文本与掩码图像不一致的情况下,我们仍然观察到较差的生成结果。原创 2025-02-27 11:54:50 · 765 阅读 · 0 评论 -
【生成模型之十六】eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers
欢迎大家进群交流~WX:lf2637649812(备注CSDN)论文:eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers类型:Text-to-Image。原创 2025-03-04 19:47:58 · 826 阅读 · 0 评论 -
【生成模型之十一】PowerPaint
其他:支持CV算法resume修改、面试fudaoPowerPaint是第一个在各种修复任务中同时实现最先进结果的通用图像绘制模型,包括文本引导的对象修复、对象移除、具有可控形状拟合的形状引导对象修复、外涂等。【新增物体、移除物体、图像扩展、形状可控】原创 2025-01-28 00:54:42 · 853 阅读 · 0 评论 -
【生成模型之十一】Blended Latent Diffusion
在本文中,我们提出了一种加速解决方案,用于通用图像的局部文本驱动编辑任务,其中所需的编辑仅限于用户提供的掩码。我们的解决方案利用了文本到图像的潜在扩散模型(LDM),该模型通过在低维潜在空间中操作来加速扩散,并消除了在每个扩散步骤进行资源密集型CLIP梯度计算的需要。我们首先使LDM能够通过在每个步骤blend latent来执行局部图像编辑,类似于Blended Diffusion。接下来,我们提出了一种基于优化的解决方案,以解决LDM固有的无法准确重建图像的问题。最后,原创 2025-01-07 17:10:40 · 794 阅读 · 0 评论 -
【生成模型之十三】SmartEraser
代码:类型:fine-tuned diffusion model其他:支持简历修改面试辅导。原创 2025-02-04 16:01:57 · 948 阅读 · 0 评论 -
【生成模型之九】Paint by Example: Exemplar-based Image Editing with Diffusion Models
我们的目标是更复杂的工作:对样本进行语义转换,例如,产生不同的姿势、变形或视点,以便编辑后的内容可以根据图像上下文无缝植入。事实上,我们的工作流程自动化了传统的图像编辑工作流程,艺术家对图像资产进行繁琐的转换,以实现连贯的图像混合。同时,为了确保编辑过程的可控性,我们为样本图像设计了一个任意形状的掩模,并利用无分类器引导来提高与样本图像的相似性。在我们的实验中,我们遵循[62]中的设置,并在训练过程中将20%的参考条件替换为可学习的向量v。为了实现我们的目标,我们训练了一个以样本图像为条件的扩散模型。原创 2024-12-25 19:30:31 · 1157 阅读 · 0 评论 -
【生成模型之十】Scalable Diffusion Models with Transformers
代码:待更新私信:CV算法有偿简历修改、面试辅导。原创 2024-12-26 21:20:07 · 847 阅读 · 0 评论 -
【生成模型之八】Classifier Guidance
Song等人提出了DDIM,它提出了一种替代的非马尔可夫噪声处理方法,该方法具有与DDPM相同的前向边缘,但允许通过改变反向噪声的方差来产生不同的反向采样器。Song et al展示了一种实现方法,其中可以使用分类器的梯度来调节预训练的扩散模型,分类器p(y|xt, t)是基于噪声图像进行训练的,然后使用梯度来指导对任意类标签y的扩散采样过程。换句话说,使用更大的梯度尺度更侧重于分类器的模式,这对于产生更高质量(但多样性更低)的样本来说可能是可取的。是当前步的去噪结果图,原创 2024-12-24 16:39:40 · 1120 阅读 · 0 评论 -
【生成模型之七】Classifier-free diffusion guidance
一般来说,分类器可以比生成模型更小更快,因此分类器引导的采样可能比无分类器引导更快,因为后者需要运行扩散模型的两个正向过程,一个用于条件得分,另一个用于无条件得分。我们证明,在没有这样的分类器的情况下,引导确实可以通过纯生成模型来执行:在我们所谓的无分类器引导中,我们联合训练一个条件和一个无条件的扩散模型,并将得到的条件和无条件的分数估计结合起来,以实现样本质量和多样性之间的权衡,类似于使用分类器引导获得的结果。无分类器引导是一种修改εθ(zλ,c)的替代方法,其效果与分类器引导相同,但没有分类器。原创 2024-12-23 18:07:05 · 970 阅读 · 0 评论 -
【生成模型之三】ControlNet & Latent Diffusion Models论文详解
我们提出了ControlNet,这是一种神经网络架构,可以将空间条件控制添加到大型预训练的文本到图像扩散模型中。ControlNet 冻结了生产就绪的大型扩散模型,并重用其经过数十亿张图像预训练的深度和鲁棒编码层作为学习各种条件控制的强大骨干。神经网络结构与“零卷积”(零初始化卷积层)相连接,该卷积层从零开始逐步增加参数,并确保没有有害噪声会影响微调。原创 2024-12-23 14:14:12 · 1493 阅读 · 0 评论 -
HuggingFace Transformer库学习
attention_mask是一个布尔张量,用于指示哪些位置有实际的单词(对应于input_ids),哪些位置是填充的(用于使输入长度一致)。而较低的温度值则会使概率分布更加尖锐,模型更可能选择概率最高的token,导致生成的文本更加确定和可预测。这有助于增加生成文本的多样性和随机性。总之,这段代码的目的是从给定的model_path加载一个预训练的因果语言模型,并尝试优化CPU内存使用。model.generate() 是一个常用的函数,用于在给定的输入基础上生成一系列的token(即文本的基本单元)。原创 2024-04-29 17:05:20 · 2604 阅读 · 0 评论 -
【生成模型之六】DDPM模型详解
生成对抗网络(GANs)、自回归模型(AR)、流(FLows)和变分自编码器(VAEs)已经合成了引人注目的图像和音频样本,基于能量的建模和分数匹配取得了显著进展,产生了与GANs相当的图像。扩散概率模型(为简洁起见,我们称之为“扩散模型”)是一个参数化的马尔可夫链,使用变分推理训练,在有限时间后产生与数据匹配的样本。学习该链的转换以逆转扩散过程,这是一个马尔可夫链,它在采样的相反方向上逐渐向数据中添加噪声,直到信号被破坏。原创 2024-12-15 19:26:56 · 802 阅读 · 0 评论 -
【多模态学习笔记二】MINIGPT-4论文阅读
提出的。我们的工作首次揭示,将视觉特征与先进的大型语言模型正确对齐可以具有GPT-4所展示的许多先进的多模态能力,例如从手绘草稿生成详细的图像描述和创建网站。在我们的实验中,我们发现,(例如重复和片段化)。为了解决这个问题,我们在第二阶段使用了一个详细的图像描述数据集来微调模型,从而提高了模型的生成可靠性和整体可用性。MiniGPT-4添加了一个 single projection layer,将编码的视觉特征与Vicuna语言模型对齐,并冻结所有其他视觉和语言组件。原创 2024-07-16 00:15:41 · 1025 阅读 · 0 评论 -
【生成模型之一】AE与VAE模型
先预览一下 AE 和 VAE 模型的效果(第一行是输入原图,第二行是 AE 重构结果,第三行是 VAE 重构结果),几乎完美重构!本文介绍 Diffusion 模型推理加速的一种常见方式:用AE(AutoEncoder) 和 VAE(Variational AutoEncoder) 进行图片压缩/反压缩。理论部分学完之后立即用代码进行实践,彻底掌握 AE/VAE。原创 2024-09-22 23:33:03 · 1430 阅读 · 0 评论 -
【多模态学习笔记一】
A-OKVQA是一个基于外部知识的视觉问答评测任务。与其他大多数VQA评测任务不同,A-OKVQA主要考察模型结合外部知识和图片内容回答问题的能力。这些问题一般不能通过简单地查询知识库或图片信息来回答,而是需要对图像中描述的场景进行常识推理。回答这些问题所需的知识包括常识性知识、视觉知识、知识库知识以及物理知识。在A-OKVQA评测中,每个问题都设置了选择题选项和10个自由形式答案,考核指标包括直接答案(Direct Answer,DA)评估和选择题(Multi Choice,MC)评估。原创 2024-06-04 21:09:27 · 894 阅读 · 0 评论 -
【生成模型之二】diffusion model模型
Diffusion Model,这一深度生成模型,源自物理学中的扩散现象,呈现出令人瞩目的创新性。与传统的生成模型,如VAE、GAN相比,**它通过模拟数据由随机噪声逐步扩散至目标数据的过程,实现数据生成。**在图像、文本和音频生成等多个领域,Diffusion Model均展现出了卓越的性能。其算法原理深入浅出,将数据生成过程视为一个马尔可夫链。数据从目标状态出发,每一步都逐渐向随机噪声过渡,直至达到纯粹的噪声状态。随后,通过逆向过程,数据从纯噪声逐渐恢复至目标状态。原创 2024-10-29 00:21:56 · 1700 阅读 · 0 评论 -
【多模态论文阅读系列二】— MiniCPM-V
为了组成偏好数据集,我们从每个响应集Y={y1,y2,··,yn}中随机抽样,并根据它们的相对得分确定(yw,yl)。尽管我们可以包含更多的图像切片以获得更高的分辨率,但我们故意强加了这个分辨率上限,因为它已经很好地覆盖了大多数现实世界的应用场景,考虑到性能和开销,进一步提高编码分辨率的好处微乎其微。MiniCPM-V系列的设计理念是在性能和效率之间实现良好的平衡,这是一个更实用的目标,适用于更广泛的现实世界应用,在架构设计、训练、推理和部署中实现。随后,我们插值ViT的位置嵌入以适应切片的比率。原创 2024-10-13 23:29:00 · 1728 阅读 · 0 评论