自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(185)
  • 收藏
  • 关注

原创 CVPR2020论文阅读——超强通道注意力模块ECANet!

Abstract最近,通道注意机制已被证明在改善深度卷积神经网络(CNN)的性能方面具有巨大潜力。然而,大多数现有方法致力于开发更复杂的注意模块以实现更好的性能,这不可避免地会增加模型的复杂性。 为了克服性能和复杂性折衷之间的矛盾,本文提出了一种有效的信道注意(ECA)模块,该模块仅包含少量参数,同时带来明显的性能提升。 通过剖析SENet中的通道注意模块,我们从经验上表明避免降维对于学习通道注意很重要,并且适当的跨通道交互可以在保持性能的同时显着降低模型的复杂性。因此,我们提出了一种无需降维的局部跨通.

2020-07-02 17:11:11 17491 11

原创 【目标检测】FCOS:Fully Convolutional One-Stage Object Detection【附pytorch实现】

Abstract我们提出了一种完全卷积的一阶段目标检测器(FCOS),以按像素预测的方式来解决对象检测,类似于语义分割。几乎所有最新的物体检测器(例如RetinaNet,SSD,YOLOv3和Faster R-CNN)都依赖于预定义的锚框。相反,我们提出的目标检测器FCOS不含锚点和锚框。通过消除预定义的锚框,FCOS完全避免了与锚框相关的复杂计算,例如在训练过程中计算重叠。更重要的是,我们还避免了所有与锚框相关的超参数,这些超参数通常对最终检测性能非常敏感。借助唯一的后处理非最大抑制(NMS),带有Re

2020-06-29 20:44:28 949 1

原创 论文阅读—图像分割方法综述(一)(arXiv:[cs:cv]20200410)

论文:Image Segmentation Using Deep Learning:A Survey作者:Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza1、Abstract图像分割是图像处理和计算机视觉中的关键主题,其应用包括场景理解,医学图像分析,机器人感知,视频监控,增强现实和图像压缩等。在文献中已经开发了用于图像分割的各种算法。最近,由于深度学习模型在各种视觉应用中的成功,已经有大量旨在利用深度学习模型开发图像分割方法的工作.

2020-06-02 17:11:28 2545

原创 目标检测网络—SPPNet详解

翻译论文:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition概述当前深度卷积神经网络(CNNs)都需输入固定的图像尺寸(fixed-size),如224×224)。这种需要是“人为”的,并且当面对任意尺寸或比例的图像时,识别精度会降低。而论文中提出的**“空间金字塔池化”(spatial p...

2020-05-03 14:09:47 2805 3

原创 SVM算法的理解及其Python实现多分类和二分类

原理SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern recognition)问题中有得到应用。支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning) 方式对数据进行二元分类的广义线性分类器(generalized linear clas...

2020-03-15 01:22:06 38523 5

原创 详细剖解Levenshtein距离算法(附python实现)

在实习期间,看到同事在做文字识别的相关项目,用Levenshtein距离作为评价模型好坏的标准之一。由于是行外人,当时对这个算法并没有任何了解,只听他介绍是用来判断两个字符是否相似的一种指标吧,直到后来自己也做NLP相关的项目,才好好钻研了一番,特此记录。一、Levenshtein距离一般的,我们在NLP中评价模型的时候,经常会使用计算得到的Levenshtein距离作为模型的评分(正确率...

2020-02-29 01:38:06 12635 2

原创 BP(BackPropagation)神经网络算法详解

一、BP神经网络背景BP(back propagation)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络。在人工神经网络的发展历史上,感知机(Multilayer Perceptron,MLP)网络曾对人工神经网络的发展发挥了极大的作用,但是,随着研究工作的深入,人们发现它还存在不...

2020-02-27 22:37:51 12558

原创 遗传算法与进化策略的对比

基于对生物进化机制的模仿,共产生进化算法的四种典型模型:①遗传算法 Genetic Algorithm,GA②进化规划 Evolutionary Programming,EP③遗传规划 Genetic Programming,GP④进化策略 Evolution Strategy, E一、遗传算法(GA)遗传算法是仿真生物遗传学和自然选择机理,通过人工方式所构造的一类搜索算法,从某种程度...

2020-02-26 00:13:22 9991

原创 数学公式识别论文一:Image-to-Markup Generation with Coarse-to-Fine Attention

标题:Image-to-Markup Generation with Coarse-to-Fine Attention(图像到标记的生成具有由粗到精的注意力机制)2017年6月13作者:Yuntian Deng 1 Anssi KanervistoAbstract我们提出了一种神经编码器-解码器模型,用于基于可扩展的从粗到精注意机制将图像转换为表示标记。 我们的方法是在图像到LaTeX生成...

2019-10-24 20:15:35 3787

原创 等值线图的Python绘制方法

等值线图或等高线图在科学界经常用到,它是由一些封闭的曲线组成的,来表示三维结构表面。虽然看起来复杂,其实用matplotlib实现起来并不难。代码如下:import numpy as npimport matplotlib.pyplot as pltdx=0.01;dy=0.01x=np.arange(-2.0,2.0,dx)y=np.arange(-2.0,2.0,dy)X,Y=np...

2018-10-27 13:12:07 34165 8

原创 【学习笔记2】一站式大模型微调框架LLaMA-Factory—训练数据

通过系统提示词,您可以为AI设定一个特定的角色(如“你是一位客服助手”)、任务目标(如“用简短的语言回答”)或对话风格(如“保持友好且专业的语气”)。

2025-04-27 13:00:22 1161

原创 【学习笔记1】一站式大语言模型微调框架LLaMA-Factory

LLaMA-Factory(Large Language Model Factory)是一个开源的、专注于大型语言模型(LLM)微调与部署的框架,由北航团队开发并维护。支持主流开源模型:LLaMA(包括LLaMA-2、LLaMA-3)、BLOOM、Mistral、Baichuan、Qwen、ChatGLM等。LoRA(低秩适配)、QLoRA(4-bit量化+LoRA),显存占用降低至单卡消费级GPU(如RTX 3090)即可训练7B/13B模型。学习地址:https://llamafactory.cn/

2025-04-27 12:52:36 1142

原创 【图像生成之22】CVPR024—SwiftBrush基于变分分数蒸馏的文生图扩散模型

知识蒸馏是一种迁移学习方法,其灵感来源于人类学习过程,即知识从更有知识的教师模型传递给知识较少的学生模型。

2025-04-12 21:37:58 1017

原创 【图像生成之21】融合了Transformer与Diffusion,Meta新作Transfusion实现图像与语言大一统

我们介绍了Transfusion,这是一种在离散和连续数据上训练多模态模型的方法。Transfusion将语言建模损失函数(下一个token预测)与扩散相结合,在混合模态序列上训练单个Transformer。我们在文本和图像数据的混合上从头开始预训练多达7B个参数的多个Transfusion模型,建立了关于各种单模态和跨模态基准的缩放规律。我们的实验表明,Transfusion的缩放效果明显优于量化图像和在离散图像标记上训练语言模型。

2025-04-12 21:31:41 1035

原创 【生成模型之二十】一种无需微调遵循文本指令的图像编辑算法—InstructPix2Pix

论文:InstructPix2Pix: Learning to Follow Image Editing Instructions类型:Image Editing\Text-to-Image总结:提出了一种遵循文本指令的图像编辑算法,利用GPT-3与SD生成三元图像编辑训练数据,包括输入caption、编辑指令、输出caption,利用prompt-to-prompt来保证图像非编辑内容一致;

2025-03-30 00:18:49 766

原创 【图像生成之十八】Seedream 2.0

论文:Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model类型:文生图(支持中英文)交流:添加VX:lf2637649812。

2025-03-22 17:07:22 1096

原创 【生成模型之十七】IP-Adapter: Text Compatible Image Prompt Adapter forText-to-Image Diffusion Models

解决问题:文本prompt工程比较复杂很难描述清楚,尽管现有的image prompt从预训练模型直接微调的方法是有效的,但它们需要大量的计算资源,并且与其他基础模型、文本提示和结构控件不兼容。因此提出了一种有效且轻量的adapter,用于实现预训练文本到图像扩散模型的图像提示功能。核心思想:IP-Adapter的关键设计是解耦的交叉注意力机制,该机制将文本特征和图像特征的交叉注意力层分开。尽管我们的方法很简单,但只有22M参数的IP适配器可以实现与完全微调的图像提示模型相当甚至更好的性能。

2025-03-11 21:51:52 876

原创 【生成模型之十六】eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers

欢迎大家进群交流~WX:lf2637649812(备注CSDN)论文:eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers类型:Text-to-Image。

2025-03-04 19:47:58 833

原创 【生成模型之十五】BrushNet

Limitations and Future Work. BrushNet仍然存在一些局限性:(1)我们的模型生成的质量和内容在很大程度上取决于所选的基础模型。(2) 即使使用BrushNet,在给定的掩码形状异常或不规则,或者给定的文本与掩码图像不一致的情况下,我们仍然观察到较差的生成结果。

2025-02-27 11:54:50 771

原创 【生成模型之十四】Visual Autoregressive Modeling

论文:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction。

2025-02-08 21:15:04 939

原创 【生成模型之十三】SmartEraser

代码:类型:fine-tuned diffusion model其他:支持简历修改面试辅导。

2025-02-04 16:01:57 953

原创 【生成模型之十一】PowerPaint

其他:支持CV算法resume修改、面试fudaoPowerPaint是第一个在各种修复任务中同时实现最先进结果的通用图像绘制模型,包括文本引导的对象修复、对象移除、具有可控形状拟合的形状引导对象修复、外涂等。【新增物体、移除物体、图像扩展、形状可控】

2025-01-28 00:54:42 858

原创 【生成模型之十一】Blended Latent Diffusion

在本文中,我们提出了一种加速解决方案,用于通用图像的局部文本驱动编辑任务,其中所需的编辑仅限于用户提供的掩码。我们的解决方案利用了文本到图像的潜在扩散模型(LDM),该模型通过在低维潜在空间中操作来加速扩散,并消除了在每个扩散步骤进行资源密集型CLIP梯度计算的需要。我们首先使LDM能够通过在每个步骤blend latent来执行局部图像编辑,类似于Blended Diffusion。接下来,我们提出了一种基于优化的解决方案,以解决LDM固有的无法准确重建图像的问题。最后,

2025-01-07 17:10:40 812

原创 【生成模型之十】Scalable Diffusion Models with Transformers

代码:待更新私信:CV算法有偿简历修改、面试辅导。

2024-12-26 21:20:07 852

原创 【生成模型之九】Paint by Example: Exemplar-based Image Editing with Diffusion Models

我们的目标是更复杂的工作:对样本进行语义转换,例如,产生不同的姿势、变形或视点,以便编辑后的内容可以根据图像上下文无缝植入。事实上,我们的工作流程自动化了传统的图像编辑工作流程,艺术家对图像资产进行繁琐的转换,以实现连贯的图像混合。同时,为了确保编辑过程的可控性,我们为样本图像设计了一个任意形状的掩模,并利用无分类器引导来提高与样本图像的相似性。在我们的实验中,我们遵循[62]中的设置,并在训练过程中将20%的参考条件替换为可学习的向量v。为了实现我们的目标,我们训练了一个以样本图像为条件的扩散模型。

2024-12-25 19:30:31 1164

原创 【生成模型之八】Classifier Guidance

Song等人提出了DDIM,它提出了一种替代的非马尔可夫噪声处理方法,该方法具有与DDPM相同的前向边缘,但允许通过改变反向噪声的方差来产生不同的反向采样器。Song et al展示了一种实现方法,其中可以使用分类器的梯度来调节预训练的扩散模型,分类器p(y|xt, t)是基于噪声图像进行训练的,然后使用梯度来指导对任意类标签y的扩散采样过程。换句话说,使用更大的梯度尺度更侧重于分类器的模式,这对于产生更高质量(但多样性更低)的样本来说可能是可取的。是当前步的去噪结果图,

2024-12-24 16:39:40 1127

原创 【生成模型之七】Classifier-free diffusion guidance

一般来说,分类器可以比生成模型更小更快,因此分类器引导的采样可能比无分类器引导更快,因为后者需要运行扩散模型的两个正向过程,一个用于条件得分,另一个用于无条件得分。我们证明,在没有这样的分类器的情况下,引导确实可以通过纯生成模型来执行:在我们所谓的无分类器引导中,我们联合训练一个条件和一个无条件的扩散模型,并将得到的条件和无条件的分数估计结合起来,以实现样本质量和多样性之间的权衡,类似于使用分类器引导获得的结果。无分类器引导是一种修改εθ(zλ,c)的替代方法,其效果与分类器引导相同,但没有分类器。

2024-12-23 18:07:05 983

原创 【生成模型之三】ControlNet & Latent Diffusion Models论文详解

我们提出了ControlNet,这是一种神经网络架构,可以将空间条件控制添加到大型预训练的文本到图像扩散模型中。ControlNet 冻结了生产就绪的大型扩散模型,并重用其经过数十亿张图像预训练的深度和鲁棒编码层作为学习各种条件控制的强大骨干。神经网络结构与“零卷积”(零初始化卷积层)相连接,该卷积层从零开始逐步增加参数,并确保没有有害噪声会影响微调。

2024-12-23 14:14:12 1502

原创 【生成模型之六】DDPM模型详解

生成对抗网络(GANs)、自回归模型(AR)、流(FLows)和变分自编码器(VAEs)已经合成了引人注目的图像和音频样本,基于能量的建模和分数匹配取得了显著进展,产生了与GANs相当的图像。扩散概率模型(为简洁起见,我们称之为“扩散模型”)是一个参数化的马尔可夫链,使用变分推理训练,在有限时间后产生与数据匹配的样本。学习该链的转换以逆转扩散过程,这是一个马尔可夫链,它在采样的相反方向上逐渐向数据中添加噪声,直到信号被破坏。

2024-12-15 19:26:56 810

原创 论文绘图T-SNE&折线图

【代码】论文绘图T-SNE&折线图。

2024-12-04 18:03:45 150

原创 域迁移相关数据集生成脚本

【代码】域迁移相关数据集生成脚本。

2024-11-07 16:15:23 234

原创 【生成模型之二】diffusion model模型

Diffusion Model,这一深度生成模型,源自物理学中的扩散现象,呈现出令人瞩目的创新性。与传统的生成模型,如VAE、GAN相比,**它通过模拟数据由随机噪声逐步扩散至目标数据的过程,实现数据生成。**在图像、文本和音频生成等多个领域,Diffusion Model均展现出了卓越的性能。其算法原理深入浅出,将数据生成过程视为一个马尔可夫链。数据从目标状态出发,每一步都逐渐向随机噪声过渡,直至达到纯粹的噪声状态。随后,通过逆向过程,数据从纯噪声逐渐恢复至目标状态。

2024-10-29 00:21:56 1712

原创 Mean Teacher & Adaptive Teacher & Probabilistic Teacher

Probabilistic Teacher框架通过不确定性引导的自训练,有效地处理了目标域中未标记数据的适应问题,提高了模型在不同域之间的泛化能力。该框架可以无缝扩展到无需源数据的UDA-OD设置中,这在隐私敏感的应用场景中非常有用。未来,可以进一步探索如何优化Probabilistic Teacher框架中的不确定性表示和利用方式,以及如何将其应用于更多的域自适应任务中。

2024-10-24 14:49:45 1267

原创 【多模态论文阅读系列二】— MiniCPM-V

为了组成偏好数据集,我们从每个响应集Y={y1,y2,··,yn}中随机抽样,并根据它们的相对得分确定(yw,yl)。尽管我们可以包含更多的图像切片以获得更高的分辨率,但我们故意强加了这个分辨率上限,因为它已经很好地覆盖了大多数现实世界的应用场景,考虑到性能和开销,进一步提高编码分辨率的好处微乎其微。MiniCPM-V系列的设计理念是在性能和效率之间实现良好的平衡,这是一个更实用的目标,适用于更广泛的现实世界应用,在架构设计、训练、推理和部署中实现。随后,我们插值ViT的位置嵌入以适应切片的比率。

2024-10-13 23:29:00 1736 1

原创 【生成模型之一】AE与VAE模型

先预览一下 AE 和 VAE 模型的效果(第一行是输入原图,第二行是 AE 重构结果,第三行是 VAE 重构结果),几乎完美重构!本文介绍 Diffusion 模型推理加速的一种常见方式:用AE(AutoEncoder) 和 VAE(Variational AutoEncoder) 进行图片压缩/反压缩。理论部分学完之后立即用代码进行实践,彻底掌握 AE/VAE。

2024-09-22 23:33:03 1446

原创 【论文阅读】—RTDETR

最近,基于端到端DETR取得了显著的性能。然而,DETR的高计算成本限制了它们的实际应用,并阻碍了它们充分利用无后处理(如非最大抑制(NMS))的优势。本文首先分析了NMS对现有实时目标检测器的准确性和速度的负面影响,并建立了一个端到端的速度基准。为了解决上述问题,我们提出了一种实时检测转换器(RT-DETR),这是我们所知的第一个实时端到端目标检测器。具体来说,,通过解耦尺度内交互和跨尺度融合来有效地处理多尺度特征,,通过向解编码器提供更高质量的初始object queries来进一步提高性能。

2024-08-05 00:27:30 2490 1

原创 域适应/泛化中的GRL与NP方法

我们的方法被称为归一化扰动(NP),它扰动源域低级特征的通道统计,以合成各种潜在风格,使训练后的深度模型能够感知不同的潜在域,并在训练中即使没有观察到目标域数据的情况下也能很好地泛化。当上游的梯度grad_output传到这里时,我们会用-ctx.eta来乘以这个梯度,从而实现梯度的反转(如果eta为正)和可能的缩放。总结:这段代码实现了一个自定义的梯度反转层。这段代码定义了一个自定义的梯度反转层,主要用于深度学习中的对抗性训练或者域适应等任务,其中我们可能希望在反向传播时改变某个层的梯度方向或大小。

2024-07-18 00:13:54 1033

原创 域泛化(Domain Generalization)

域泛化 (Domain Generalization, DG) 它研究的问题是从若干个具有不同数据分布的数据集(领域)中学习一个泛化能力强的模型,以便在 未知 (Unseen) 的测试集上取得较好的效果。DG算法的评估通常遵循leave-one- domain-out的规则:给定一个包含至少两个不同域的数据集,其中一个或多个域被用作模型训练的源域,而其余域被视为目标域;在TL中,新的下游任务的模型微调需要目标数据,而在DG中,我们假设无法访问目标数据,因此更多地关注模型泛化。

2024-07-17 23:52:00 1576

原创 【多模态学习笔记二】MINIGPT-4论文阅读

提出的。我们的工作首次揭示,将视觉特征与先进的大型语言模型正确对齐可以具有GPT-4所展示的许多先进的多模态能力,例如从手绘草稿生成详细的图像描述和创建网站。在我们的实验中,我们发现,(例如重复和片段化)。为了解决这个问题,我们在第二阶段使用了一个详细的图像描述数据集来微调模型,从而提高了模型的生成可靠性和整体可用性。MiniGPT-4添加了一个 single projection layer,将编码的视觉特征与Vicuna语言模型对齐,并冻结所有其他视觉和语言组件。

2024-07-16 00:15:41 1026 1

原创 半监督方案跟域自适应方案哪个更能提升目标检测泛化效果?

源域(Source Domain):指的是我们已经有较多数据或知识积累的领域,这些数据通常是有标签的,可以用于训练模型。源域中的数据集和特征分布构成了模型学习的基础。目标域(Target Domain):指的是我们希望将模型应用到的新领域,这个领域的数据可能是有限的,甚至可能完全没有标签。目标域是我们希望通过迁移学习来改善模型性能的领域。在迁移学习中,源域和目标域之间通常存在一定的相似性,但也可能存在明显的差异。这种差异可能体现在数据的分布、特征表示、任务复杂度等多个方面。

2024-07-09 23:33:46 1088

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除