- 博客(30)
- 收藏
- 关注
原创 多模态融合【二十一】——Probing Synergistic High-Order Interaction in Infrared and Visible Image Fusion
如图2所示,所提出的范式运作如下:给定红外图像和可见光图像,我们使用独立的卷积层为每个模态提取浅层特征,生成和。随后,这些模态感知特征经过一系列核心协同高阶交互范式(SHIP),涵盖空间和通道维度,探索两模态在空间细粒度细节和全局统计中的协同效应。最后,这些特征被投影回图像空间,生成融合结果。融合过程特别针对颜色空间中的通道,遵循先前工作[24, 57]的方法。总之,该范式可表述为:, (1) 其中和表示特征提取器,表示 SHIP 的迭代次数。
2025-05-18 19:59:39
868
原创 多模态融合【二十】——Equivariant Multi-Modality Image Fusion
多模态图像融合是一种将来自不同传感器或模态的信息相结合的技术,使融合后的图像能够保留各模态的互补特征,例如功能高光和纹理细节。然而,由于缺乏真实的融合数据,有效训练此类融合模型具有挑战性。为解决这一问题,我们提出了等变多模态图像融合(EMMA)范式,用于端到端的自监督学习。我们的方法基于自然成像响应对某些变换具有等变性的先验知识。因此,我们引入了一种新的训练范式,包括融合模块伪感知模块和等变融合模块。这些组件使网络训练能够遵循自然感知-成像过程的原则,同时满足等变成像先验。
2025-05-14 10:48:15
842
原创 多模态融合【十九】——MRFS: Mutually Reinforcing Image Fusion and Segmentation
本文提出了一种耦合学习框架,称为MRFS,旨在突破红外-可见光图像融合与分割的性能瓶颈。通过利用视觉与语义之间的内在一致性,该框架强调相互增强,而非将这些任务视为独立问题。首先,我们将弱化信息恢复和显著信息整合嵌入图像融合任务,采用基于CNN的交互式门控混合注意力(IGM-Att)模块提取高质量视觉特征,旨在满足人类视觉感知,生成纹理丰富、对比度高、色彩生动的融合图像。其次,开发了基于Transformer的渐进循环注意力(PC-Att)模块以增强语义分割,建立单模态自增强和跨模态互补机制。
2025-05-13 09:48:09
1101
原创 多模态融合【十八】——DATFuse: Infrared and Visible Image Fusion via Dual Attention Transformer
红外与可见光图像融合旨在生成一种复合图像,既能包含红外图像的热辐射信息,又能保留可见光图像丰富的纹理细节,从而在各种天气条件下以高空间分辨率检测场景目标。传统的深度融合模型主要基于卷积运算,对长距离上下文信息的表征能力有限。本文提出了一种基于双注意力Transformer(DATFuse)的端到端红外与可见光图像融合新模型。通过设计双注意力残差模块(DARM)精确捕捉源图像关键区域特征采用Transformer模块(TRM)建模长程依赖关系以保留全局互补信息。此外,通过设计包含。
2025-05-12 11:39:07
1043
原创 多模态融合【十七】——CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi
红外与可见光图像融合旨在通过融合不同传感器的互补信息,提供一幅信息丰富的图像。现有的基于学习的融合方法尝试构建各种损失函数来保留互补特征,此外,大多数方法专注于通过增加网络深度来增强网络,而忽视了。为了解决这些问题,我们提出了一种耦合对比学习网络,称为CoCoNet,以端到端的方式实现红外与可见光图像融合。具体而言,为了同时保留两种模态的典型特征并避免融合结果中出现伪影,我们在在融合图像中,其前景目标/背景细节部分在表示空间中被拉近红外/可见光源,并推远可见光/红外源。
2025-05-11 12:05:41
854
原创 多模态融合学习【十六】STDFusionNet: An Infrared and Visible Image Fusion Network Based on Salient Target Detect
在本文中,我们提出了一种基于显著目标检测的红外与可见光图像融合网络,称为STDFusionNet,它能够保留红外图像中的热目标和可见光图像中的纹理结构。首先,我们设计了一个显著目标掩膜,专门用于标注红外图像中人类或机器更关注的区域,从而为不同信息的整合提供空间指导。其次,我们结合该显著目标掩膜设计了一种特定的损失函数,以指导特征的提取和重构。具体来说,特征提取网络能够从红外图像中选择性地提取显著目标特征,并从可见光图像中提取背景纹理特征,而特征重构网络则能有效融合这些特征并重构出期望的结果。
2025-05-09 17:31:27
819
原创 多模态学习【十五】:Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fu
本研究解决了红外图像与可见光图像在目标检测中融合时因外观差异而产生的问题。为了生成高质量的视觉图像,以往的方法通过发现两种模态的共同基础并在共同空间上通过迭代优化或深度网络进行融合。这些方法忽略了模态差异所蕴含的互补信息对于融合和后续检测任务极为重要。本文提出了一种针对融合与检测联合问题的双层优化公式,并将其展开为目标感知双对抗学习(TarDAL)网络用于融合,以及常用的检测网络。融合网络包含一个生成器和双判别器,在寻求共同点的同时从差异中学习,从而保留红外图像的目标结构信息和可见光图像的纹理细节。
2025-05-09 10:31:19
696
原创 多模态融合学习【十四】——高热SeaFusion:Image fusion in the loop of high-level vision tasks: A semantic-aware real-
红外与可见光图像融合旨在合成一幅融合图像,不仅包含显著目标和丰富的纹理细节,还能促进高级视觉任务。。为了应对这些挑战,本文弥合了图像融合与高级视觉任务之间的差距,提出了一种一方面,我们级联了,有效提升了融合图像在高级视觉任务中的性能。另一方面,我们设计了。广泛的比较和泛化实验证明了我们的SeAFusion在保持像素强度分布和保留纹理细节方面优于最先进的替代方案。更重要的是,多种融合算法在任务驱动评估中的性能比较揭示了我们框架在的天然优势。
2025-05-07 22:20:30
944
原创 多模态融合学习【十三】——SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness
图像融合旨在整合源图像中的互补信息,以合成一幅全面表征成像场景的融合图像。然而,现有的图像融合算法仅适用于严格对齐的源图像,当输入图像存在轻微位移或形变时,融合结果会产生严重伪影。此外,融合结果通常仅具有良好的视觉效果,而忽略了高级视觉任务的语义需求。本研究将图像配准图像融合和高级视觉任务的语义需求整合到一个统一框架中,提出了一种新颖的图像配准与融合方法,命名为SuperFusion。具体而言,我们设计了一个配准网络,通过光度约束和端点约束的监督,估计双向形变场以校正输入图像的几何失真。
2025-05-06 22:00:20
1013
原创 多模态融合学习[十二]——经典热点:FusionGAN: A generative adversarial network for infrared and visible image fusion
红外图像可以根据热辐射差异将目标与其背景区分开来,这种方法在全天候(白天/夜晚)和各种天气条件下均表现良好。相比之下,可见光图像能够提供高空间分辨率和高清晰度的纹理细节,符合人类视觉系统的感知方式。本文提出了一种新颖的方法,利用生成对抗网络(GAN)融合这两种信息,称为FusionGAN。我们的方法在生成器和判别器之间建立了一个对抗博弈:生成器旨在生成一幅融合图像,包含主要的红外强度信息以及额外的可见光梯度信息;判别器则试图迫使融合图像包含更多可见光图像中的细节。这使得最终的融合图像能够同时。
2025-05-04 15:55:07
688
原创 【代码学习】 Swin Fusion代码解析
想实现动态的层数调整,可以修改Ex_depths,比如修改为Ex_depths=[4,2],那么i_layer=[0,1],也就是depth为4和2总共六层,以此类推。通过卷积,因为patch_size=4,num_patches=(224/4,224/4)=56*56个,所以相当于用卷积核Kernel=4,stride=4进行卷积,得到56*56的特征图,维度就是embed_dim(E)。,对于所有第一分支中的layer,输入就是X和X的size,经过若干个。特征融合包括类内的特征融合和夸类的特征融合。
2025-04-26 16:30:12
872
原创 多模态融合(十一): SwinFusion——武汉大学马佳义团队(二)
本研究提出了一种基于跨域长程学习和Swin Transformer的新型通用图像融合框架,命名为SwinFusion。一方面,我们设计了一个注意力引导的跨域模块,以实现互补信息的充分整合和全局交互。更具体地说,提出的方法包括基于自注意力的域内融合单元和基于跨注意力的域间融合单元,用于挖掘和整合同一域内和跨域的长程依赖关系。通过长程依赖建模,网络能够充分实现特定域信息的提取、跨域互补信息的整合,并从全局视角维持适当的表观强度。特别地,我们将移窗机制引入自注意力和跨注意力中,使模型能够处理任意尺寸的图像。
2025-04-19 17:46:44
991
原创 红外与可见光融合学习(十)2025TPAMI综述:Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption
红外-可见光图像融合(IVIF)是计算机视觉领域的一项基本且关键任务。其目标是将红外和可见光谱的独特特性整合成一个整体表示。自2018年以来,越来越多的多样化IVIF方法进入了深度学习时代,涵盖了广泛的网络结构和损失函数,以提升视觉增强效果。随着研究的深入和实际需求的增长,一些复杂问题,如数据兼容性、感知精度和效率,无法被忽视。遗憾的是,缺乏最近的综述文章来全面介绍和组织这一不断扩展的知识领域。鉴于当前的快速发展,本文旨在填补这一空白,提供一份全面的综述,涵盖广泛的方面。
2025-04-15 21:53:42
682
原创 多模态融合学习(九)——PIAFusion 武汉大学马佳义团队(一)
红外与可见光图像融合旨在合成一幅单一的融合图像,即使在极端光照条件下也能包含显著目标和丰富的纹理细节。然而,现有的图像融合算法在建模过程中未能考虑光照因素。在本文中,我们提出了一种基于光照感知的渐进式图像融合网络,称为 PIAFusion,它能够自适应地维持显著目标的强度分布并保留背景中的纹理信息。具体来说,我们设计了一个光照感知子网络来估计光照分布并计算光照概率。此外,我们利用光照概率构建了光照感知损失函数,以指导融合网络的训练。
2025-04-14 15:47:37
1258
原创 多模态学习(八):2022 TPAMI——U2Fusion: A Unified Unsupervised Image Fusion Network
本研究提出了一种新型的统一且无监督的端到端图像融合网络(U2Fusion),能够解决多模态、多曝光、多焦点等不同融合任务。通过特征提取和信息度量,U2Fusion自动估计源图像的重要性并生成自适应信息保留度,从而将不同融合任务统一到同一框架中。基于自适应保留度,网络通过保持融合结果与源图像之间的相似性进行训练,显著缓解了深度学习在图像融合中依赖真值标签和专用设计指标的核心障碍。通过避免多任务顺序训练导致的能力丢失,我们获得了适用于多种任务的统一模型。
2025-04-03 22:14:08
1140
原创 多模态论文学习(七):DenseFuse: A Fusion Approach to Infrared and Visible Images
在本文中,我们提出了一种新颖的深度学习架构,用于红外与可见光图像融合问题。与传统的卷积网络不同,我们的编码网络由卷积层、融合层和密集块组合而成,其中每一层的输出都与所有其他层相连。我们尝试使用这种架构在编码过程中从源图像中提取更多有用的特征。同时,我们设计了两个融合层(融合策略)来融合这些特征。最后,通过解码器重建融合图像。与现有的融合方法相比,所提出的融合方法在客观和主观评估中实现了最先进的性能。研究背景与问题定义。
2025-04-01 20:19:55
1215
原创 多模态融合学习(六)——2024TPAMI:CFNet: An infrared and visible image compression fusion network
这段文字描述了一篇关于红外与可见光图像融合的学术论文,提出了一种名为CFNet的压缩融合网络。这篇论文提出了一个创新的红外与可见光图像融合与压缩联合框架,利用VAE实现压缩,CNN与Transformer联合提取特征,并通过ROI导向的多通道损失优化比特分配。其核心贡献在于将压缩任务无缝融入融合流程,解决了传统方法的冗余和效率问题。技术上结合了生成模型(VAE)、卷积网络和注意力机制的优势。融合趋势:深度学习方法从视觉质量转向任务驱动,Transformer与CNN结合成主流。压缩趋势。
2025-03-31 12:21:08
1128
原创 多模态融合论文学习(五):2025《nature》-A dual-stream feature decomposition network with weight transformation论文详解
论文链接:https://www.nature.com/articles/s41598-025-92054-0目录一.摘要1.1 摘要翻译1.1 摘要解析二. Introduction2.1 Introduction翻译2.2 Introduction解析三.related work1. 基于深度学习的多模态图像融合(MMIF)2. 视觉任务中的Transformer四. 方法4.1 方法翻译4.2 方法解析五.实验5.1 实验翻译5.2 实验解析六.结论6.1 结论翻译6.2 结论解析 作为
2025-03-27 17:38:42
1292
原创 多模态学习(四):可见光-红外图像配准:2025Visible–Infrared Image Alignment for UAVs: Benchmark and New Baseline论文详解
随着多传感器在无人机(UAVs)中的广泛使用,多模态信息处理已成为研究重点。在无人机目标检测和跟踪任务的学术研究中,研究人员通常将可见光-红外图像对的对齐作为预处理步骤。然而,在实际任务中,无人机获取的双模态图像对往往是未对齐的,这显著限制了下游任务的应用。目前,尚无公开可用的无人机多模态图像对齐数据集。本文提出了一个大规模的双模态图像对齐任务基准数据集,包含81,000对训练图像和15,000对测试图像对。同时,我们提出了一个基于Transformer的双模态图像对齐网络作为该基准的基线。首先,
2025-03-25 17:10:03
1370
原创 多模态融合论文学习:(三) 2025CLIP详解
当前最先进的计算机视觉系统通常被训练来预测一组预先确定的目标类别。这种受限的监督方式限制了模型的泛化能力和适用性,因为如果想要识别新的视觉概念,就必须额外获取标注数据。相比之下,直接从关于图像的原始文本中学习是一种更具潜力的替代方案,它可以利用更广泛的数据来源来进行监督学习。本研究表明,仅通过一个简单的预训练任务——预测哪一张图片与哪一个文本描述匹配,就可以高效、可扩展地从头学习最先进(SOTA)的图像表示。我们使用从互联网收集的 4 亿对(图片、文本) 进行预训练。
2025-03-23 18:45:01
1042
原创 多模态大模型(二)2025:最详细Vision Transformer论文详解
2.1 摘要部分及其翻译虽然 Transformer 架构已成为自然语言处理任务的事实标准,但它在计算机视觉领域的应用仍然相对有限。在视觉任务中,注意力机制通常是与卷积网络结合使用,或者用于替换卷积网络的部分组件,同时保持整体网络结构不变。我们展示了其实并不需要依赖 CNN,而是可以将纯 Transformer 直接应用于图像块(patch)序列,并在图像分类任务上取得非常好的表现。
2025-03-21 19:25:34
1966
原创 Bert代码详解
BertEncoder 由 num_hidden_layers 个 BertLayer 组成,逐层处理 hidden_states。支持 gradient_checkpointing 以节省显存。可以返回 hidden_states、attentions 和 past_key_values。适用于 BERT 及其变体(如 RoBERTa、DistilBERT)。Attention 可能是 Self-Attention 也可能包含 Cross-Attention。
2025-03-15 15:50:02
1012
原创 解决RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:
一个核心思路解决报错RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0,cpu等
2023-05-24 09:25:10
20792
8
原创 在 ‘lr_scheduler.pyi‘ 中找不到引用 ‘_LRScheduler‘
解决在 'lr_scheduler.pyi' 中找不到引用 '_LRScheduler'
2023-03-13 10:45:32
5516
6
原创 python相对导入错误,ValueError: attempted relative import beyond top-level package
python相对导入时出现的问题,以及导入自己写的.py文件时出现找不到model的问题的解决方式
2023-01-26 14:31:22
712
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人