自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(86)
  • 收藏
  • 关注

原创 ResNeXt(2017➕CVPR)

本文提出了一种简单且高度模块化的图像分类网络架构ResNeXt。该架构通过重复一个构建块实现,该构建块聚合一组拓扑相同的变换。与传统方法相比,ResNeXt在保持复杂度不变的情况下,通过增加变换组的大小(即“基数”)来提升分类准确率,且效果优于加深或加宽网络。实验表明,在ImageNet-1K数据集上,ResNeXt模型在验证误差和训练误差上均优于ResNet,并且当数据量更大时,这种优势更加明显。此外,ResNeXt 还在 ImageNet-5K 数据集和COCO检测数据集上表现出更好的性能。

2025-04-10 07:00:00 905

原创 Xception(2017➕CVPR)

本文提出了一种新的卷积神经网络架构Xception,基于深度可分离卷积,取代了传统Inception模块。作者认为特征图中的跨通道相关性和空间相关性可以完全解耦,并通过实验验证了这一假设。Xception架构由36个卷积层组成,包含14个模块,所有模块间都有线性残差连接。与Inception V3相比,Xception在ImageNet数据集上表现略优,在更大规模的JFT数据集上显著优于Inception V3,且参数数量相近。

2025-04-09 07:00:00 1185

原创 GoogLeNet(2015➕CVPR)

本文提出了一种名为Inception的深度卷积神经网络架构,显著提升了ImageNet大规模视觉识别挑战赛2014(ILSVRC14)中的分类与检测性能。该架构通过精心设计提高了计算资源的利用率,同时保持了固定的计算预算。关键创新是引入“Inception模块”,允许在网络深度和宽度增加时避免计算量的指数增长。GoogLeNet作为其中一个版本,是一个22层深的网络,在分类和检测任务中表现出色。实验表明,这种架构在计算效率和性能之间取得了良好平衡,为未来构建更稀疏高效的网络结构提供了方向。

2025-04-08 07:00:00 728

原创 DenseNet(2017➕CVPR)

本文提出了一种名为密集卷积网络(DenseNet)的新架构。DenseNet通过从前一层到后续每一层都建立直接连接的方式,显著提高了信息流和梯度流,从而缓解了梯度消失问题并增强了特征传播。与传统卷积网络相比,DenseNet减少了参数数量,同时在多个竞争性数据集(如CIFAR-10、CIFAR-100、SVHN和ImageNet)上实现了更高的准确性。实验表明,DenseNet在参数效率和计算成本方面优于现有技术,尤其在深度网络训练中表现出色,同时避免了过拟合问题。代码和预训练模型已公开。

2025-04-07 07:00:00 918

原创 VGG(2014➕CV)

本研究探讨了卷积网络深度对大规模图像识别准确性的提升作用。作者通过构建具有非常小(3×3)卷积核的架构,逐步增加网络深度,从11层到19层,显著提高了现有模型的表现。实验表明,这种深度增加的方法不仅在ImageNet挑战赛的分类和定位任务上达到了最佳准确率,还在其他数据集上也表现出色。研究还发现,这些特征具有良好的泛化能力,并公开了两个表现最好的模型以促进进一步研究。最终结果证明,相较于传统架构,更深的网络结构能带来更优的分类性能。这篇论文的主要内容可以总结如下:研究目标。

2025-04-06 07:00:00 1687

原创 MobileDet(2020➕CVPR)

本研究重新评估了常规卷积在移动加速器上的应用价值,质疑了深度可分离卷积层作为移动设备视觉模型唯一构建块的普遍设计模式。通过神经架构搜索,研究发现将常规卷积纳入搜索空间可以显著提升目标检测任务的精度与延迟权衡。实验表明,在多种硬件平台如移动CPU、EdgeTPU、DSP及边缘GPU上,所提出的方法均优于现有最先进的模型,例如在移动CPU上比MobileNetV3高出1.7 mAP,在EdgeTPU上比MobileNetV2高出3.7 mAP。此外,该方法在DSP上的表现也超过了其他模型,同时保持较低的延迟。

2025-04-05 07:00:00 1139

原创 ThunderNet(2019➕ICCV)

本文研究了两阶段检测器在实时通用目标检测中的有效性,并提出了一种名为ThunderNet的轻量级两阶段检测器。在主干网络部分,分析了现有轻量级主干网络的缺点,设计了一种专用于目标检测的轻量级主干网络。在检测部分,采用了高效的区域提议网络(RPN)和检测头设计。为了生成更具有区分性的特征表示,设计了上下文增强模块和空间注意力模块。

2025-04-04 07:00:00 1243

原创 Cascade R-CNN(2018➕CVPR)

本文提出了一种名为Cascade R-CNN的新检测框架,旨在解决高质量目标检测问题。现有检测器通常在低IoU阈值下训练,容易产生噪声检测结果;而提高IoU阈值虽能提升质量,但会导致过拟合或推理阶段与输入假设不匹配的问题。Cascade R-CNN通过一系列逐步增加IoU阈值的检测器实现对“接近假阳性”的抑制,同时利用后一阶段的输出重新采样来保证正样本分布均衡,减少过拟合。该架构简单且端到端可训练,在COCO数据集上超越所有单模型检测器,尤其在高评价指标下表现优异。

2025-04-03 07:00:00 1088

原创 EfficientDet(2019➕CVPR)

本文研究了目标检测网络架构的设计选择,提出了两种关键优化来提升效率:一是加权双向特征金字塔网络(BiFPN),实现简单快速的多尺度特征融合;二是复合缩放方法,同时均匀调整主干网络、特征网络及边界框/类别预测网络的分辨率、深度和宽度。基于这些优化与更好的主干网络,作者开发了一种新的目标检测器系列EfficientDet,在各种资源限制下均表现出比现有技术更高的效率。

2025-04-02 07:00:00 1172

原创 FCOS(2019 ICCV)

我们提出了一种完全卷积的一阶段目标检测器FCOS,采用逐像素预测的方式进行目标检测,类似于语义分割。与依赖预定义锚框的主流检测器(如RetinaNet、SSD、YOLOv3和Faster R-CNN)不同,FCOS不依赖锚框和候选框,通过消除预定义锚框集,避免了与锚框相关的复杂计算(如训练中的重叠计算)。更重要的是,我们规避了所有与锚框相关的超参数,这些参数对最终检测性能非常敏感。

2025-04-01 07:00:00 765

原创 Mask R-CNN(2017 PAMI)

Mask R-CNN是一种简单灵活的框架,用于实例分割任务。该方法在检测图像中的物体同时,能生成高质量的分割掩模。通过在现有Faster R-CNN的基础上添加预测分割掩模的分支,实现了与目标框识别并行的操作。Mask R-CNN易于训练且仅增加较小的计算开销,运行速度可达5帧每秒。此外,它还能轻松扩展到其他任务,如人体姿态估计。实验表明,Mask R-CNN在COCO数据集的三项挑战任务中均取得最佳结果,包括实例分割、目标检测及人体关键点检测。即使不使用额外技巧,其性能也超越所有先前的单一模型。

2025-03-31 07:00:00 1176

原创 Coordinate Attention(2021➕CVPR)

本文提出了一种名为“坐标注意力”(Coordinate Attention, CA)的新颖轻量级注意力机制,用于移动网络设计。传统通道注意力仅关注通道间关系而忽略位置信息,而CA通过嵌入位置信息扩展了通道注意力,在两个空间方向上分别进行一维特征编码,从而捕获长距离依赖并保留精确的位置信息。实验表明,CA不仅在ImageNet分类任务中表现优异,还能显著提升下游任务如目标检测和语义分割的表现。CA模块易于集成到经典移动网络架构中,且计算开销极小,适用于多种模型规模和权重倍率设置。

2025-03-30 07:00:00 1239

原创 RetinaNet(2017 ICCV)

本文提出了一种名为 Focal Loss 的新损失函数,用于解决密集目标检测中极端前景-背景类别不平衡的问题。传统两阶段检测器虽然准确率高但速度较慢,而一阶段检测器速度快但精度较低。作者发现,一阶段检测器在训练过程中容易被大量简单背景样本主导,导致模型性能不佳。为了解决这一问题,Focal Loss通过在标准交叉熵损失基础上添加一个调制因子1−ptγ(1-p_t)^γ1−pt​γ来降低易分类样本的权重,从而将训练焦点集中在难样本上。

2025-03-29 07:00:00 1426

原创 Faster R-CNN(2017 PAMI)

本文提出了一种区域提议网络(RPN),与目标检测网络共享全图像卷积特征,使得区域提议计算几乎无成本。RPN是一种全卷积网络,在每个位置同时预测目标边界和目标得分。通过端到端训练,RPN生成高质量的区域提议,供Fast R-CNN进行检测。实验表明,使用VGG-16模型时,检测系统在GPU上的帧率为5fps,且在PASCAL VOC和MS COCO数据集上达到最先进的检测精度。此外,在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN是多个赛道冠军的基础。代码已公开发布。

2025-03-28 07:00:00 815

原创 SSD(2015 CV)

SSD是一种单次多框检测器,通过在卷积特征图的不同位置使用不同长宽比和尺度的默认框来预测目标类别和边界框偏移量。该模型结合多个分辨率的特征图预测,从而自然处理各种大小的目标。与需要候选框的方法相比,SSD完全消除了候选框生成和后续像素或特征重采样阶段,使得训练简单且易于集成到检测系统中。实验结果显示,在PASCAL VOC、COCO和ILSVRC数据集上,SSD的准确率与需额外候选框步骤的方法相当,但速度更快,提供了统一的训练和推理框架。

2025-03-27 07:00:00 1571

原创 YOLO V12(2025 CV)

本文提出了一种名为YOLOv12的新框架,通过引入注意力机制实现了实时目标检测性能的提升。该模型结合了区域注意力模块(A2)和残差高效层聚合网络(R-ELAN),优化了特征聚合效率并减少了计算复杂度。与现有实时检测器相比,YOLOv12在准确率和速度上均有显著改进,例如YOLOv12-N在T4 GPU上的推理延迟仅为1.64毫秒,而其平均精度(mAP)达到40.6%,优于其他版本如YOLOv10-N和YOLOv11-N。

2025-03-26 07:00:00 847

原创 CenterNet(2019 CV)

本文提出了一种新的目标检测方法——CenterNet,它将物体建模为边界框的中心点,通过关键点估计找到这些中心点,并从图像特征中回归得到其他属性如大小、3D位置、方向等。与传统基于边界框的方法相比,CenterNet端到端可微分,更简单、更快且更准确。在MS COCO数据集上,CenterNet实现了最佳的速度-精度权衡,例如使用Hourglass-104网络时,在1.4 FPS下达到45.1%的AP。此外,该方法还适用于3D目标检测和多人姿态估计任务,性能接近或优于复杂多阶段方法,并能实现实时运行。

2025-03-25 07:00:00 1045

原创 YOLO V10(2024 NIPS)

本研究针对实时目标检测任务,提出了一种新的YOLOv10模型,旨在提升性能与效率之间的边界。首先,在后处理阶段引入了无NMS训练的一致双分配策略,显著提高了推理速度并保持了竞争力。其次,在模型架构方面,采用全面优化的方法从效率和准确性两方面改进YOLO组件,大幅减少了计算开销并增强了模型能力。实验结果显示,YOLOv10在多种模型规模下均达到了最先进的性能与效率。例如,YOLOv10-S比RT-DETR-R18快1.8倍,同时参数量和浮点运算数减少约2.8倍;

2025-03-24 07:00:00 1157

原创 Grad-CAM(2017 ICCV)

我们提出了一种名为 Grad-CAM 的技术,用于生成基于卷积神经网络(CNN)模型的视觉解释,使这些模型更具透明性和可解释性。Grad-CAM通过利用目标概念(如分类网络中的“狗”或描述网络中的词序列)流向最终卷积层的梯度,生成粗略的定位图,突出显示图像中预测该概念的重要区域。与先前的方法不同,Grad-CAM适用于多种CNN模型家族,包括全连接层的CNN、结构化输出任务的CNN以及多模态输入任务的CNN,无需架构更改或重新训练。

2025-03-23 07:00:00 958

原创 YOLO V9(2024 ECCV)

本文提出了一种新的辅助监督框架——可编程梯度信息(PGI),用于解决深度神经网络中的信息瓶颈问题及深度监督机制在轻量级模型中的适用性。为实现这一目标,设计了广义高效层聚合网络(GELAN),该网络结合了CSPNet和ELAN的优点,在保持轻量化的同时提高了推理速度与准确性。实验表明,PGI不仅提升了轻量级模型的性能,还增强了深层模型训练过程中的梯度可靠性,使模型能更准确地建立数据与目标之间的关联。

2025-03-22 07:00:00 1351

原创 Transposed convolution(2016 IEEE)

本文提出了一种完全卷积网络(Fully Convolutional Network, FCN),用于像素级别的语义分割任务。研究者们展示了通过端到端训练的卷积网络可以超越之前最好的语义分割结果。关键在于构建“完全卷积”的网络结构,该结构能够处理任意大小的输入并生成相应尺寸的输出,同时保持高效的学习与推理过程。作者们对现有的分类网络(如AlexNet、VGG Net和GoogLeNet)进行了改造,使其成为完全卷积网络,并通过微调将它们的特征表示迁移到分割任务上。

2025-03-21 07:00:00 1372

原创 Switchable Atrous Convolution(2020 CVPR)

本文提出了一种名为DetectoRS的方法,结合了递归特征金字塔(RFP)和可切换空洞卷积(SAC),显著提升了目标检测性能。在 COCO 数据集上,DetectoRS 达到了55.7%的框平均精度(box AP)、48.5%的掩码平均精度(mask AP)和50.0%的全景分割指标(PQ)。RFP通过反馈连接增强特征金字塔网络(FPN),实现“看两次”的机制;SAC则通过不同空洞率的卷积核处理输入特征,提高了模型的适应性和准确性。

2025-03-20 07:00:00 898

原创 Deformable Convolution(2017 ICCV)

本文介绍了两种新模块——可变形卷积和可变形感兴趣区域(RoI)池化,以增强卷积神经网络(CNNs)在几何变换建模方面的能力。这两种模块通过在标准模块中添加偏移量来改变空间采样位置,并从目标任务中学习这些偏移量。新的模块可以轻易替换现有CNN中的相应模块,并可以通过标准反向传播进行端到端训练,从而形成可变形卷积网络。实验结果表明,学习深度CNN中的密集空间变换对于复杂的视觉任务(如物体检测和语义分割)是有效的。

2025-03-19 07:00:00 811

原创 Dilated Convolution(2016 ICLR)

本文提出了一种新的卷积网络模块,专门设计用于密集预测任务。该模块使用膨胀卷积在不损失分辨率的情况下系统地聚合多尺度上下文信息。实验表明,该模块可以显著提高现有语义分割系统的准确性。此外,研究还发现简化从图像分类网络改编而来的密集预测网络可以进一步提高精度。这篇论文《MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS》主要内容可以总结如下:问题背景。

2025-03-18 07:00:00 879

原创 YOLO V7(2023 CVPR)

YOLOv7在5到160帧每秒范围内超越所有已知目标检测器的速度和精度,其在GPU V100上达到30帧每秒或更高时,精度最高为56.8% AP。YOLOv7-E6检测器(56 FPS V100,55.9% AP)在速度和精度上均优于SWIN-L Cascade-Mask R-CNN(9.2 FPS A100,53.9% AP)和ConvNeXt-XL Cascade-Mask R-CNN(8.6 FPS A100,55.2% AP)。

2025-03-17 07:00:00 1758

原创 YOLO V6(2022 CV)

本文介绍了YOLOv6,一种针对工业应用设计的单阶段目标检测框架。YOLOv6通过重新设计网络结构、标签分配、损失函数、数据增强及量化部署等方面,实现了在保持较高精度的同时提高推理速度。YOLOv6采用了自蒸馏策略,并优化了不同大小模型的网络架构。实验表明,YOLOv6-N在Tesla T4 GPU上能达到1234 FPS的吞吐量和35.9%的AP,而YOLOv6-S则达到了43.5%的AP和495 FPS的吞吐量,优于同类其他模型。

2025-03-16 07:00:00 1007

原创 YOLO V3(2018 CV)

YOLOv3通过一系列小的设计改进提升了性能,比之前的版本更准确但速度稍慢。它在22毫秒内达到28.2 mAP,与SSD精度相当但快三倍。在旧的mAP检测指标下,YOLOv3在51毫秒内达到57.9 AP50,比RetinaNet类似性能但快3.8倍。YOLOv3采用多尺度预测,使用Darknet-53特征提取器,该网络结构比ResNet-101和152更高效。尽管YOLOv3在处理速度和AP50指标上表现出色,但在高IOU阈值下的表现仍需改进。

2025-03-15 07:00:00 1097

原创 YOLO V4(2020 CV)

YOLOv4通过结合多种创新技术实现了高精度和高速度的目标检测。该模型使用了CSPDarknet53作为骨干网络,并添加了SPP、PANet等模块来增加感受野和特征聚合能力。YOLOv4还引入了Mosaic数据增强、自对抗训练(SAT)、跨批次归一化(CmBN)等新技术,显著提升了检测性能。最终,在MS COCO数据集上达到了43.5%的平均精度(AP),并且在Tesla V100显卡上的实时速度达到约65帧每秒。这些改进使得YOLOv4可以在常规GPU上进行高效训练和部署。

2025-03-14 07:00:00 1116

原创 MobileMamba(2024 CV)

本文提出了一种名为MobileMamba的轻量级视觉模型框架,旨在平衡性能与效率。该模型采用三阶段网络结构,并引入了多感受野特征交互(MRFFI)模块,包括长程小波变换增强Mamba(WTE-Mamba)、多核深度可分离卷积(MK-DeConv)和冗余身份映射消除组件。这些组件增强了高频边缘细节的提取能力。此外,通过知识蒸馏和扩展训练周期等策略进一步提升模型性能。MobileMamba在多个高分辨率下游任务中表现出色,在ImageNet-1K上达到最高83.6%的Top-1准确率,且比现有高效模型快21倍。

2025-03-13 07:00:00 1903

原创 【详细版】DETR系列之RT-DETR(2024 CVPR)

本文提出了一种名为RT-DETR的实时端到端目标检测器,解决了现有实时检测器在速度和精度上的问题。RT-DETR通过设计高效的混合编码器处理多尺度特征,并引入IoU感知查询选择来提高性能。实验结果显示,RT-DETR-L在COCO验证集上达到53.0%的平均精度(AP),并在T4 GPU上达到114帧每秒(FPS),而RT-DETR-X则达到54.8% AP和74 FPS,优于当前最先进的YOLO检测器。此外,RT-DETR-R50在精度和FPS方面也显著超越了其他同类检测器。

2025-03-12 07:00:00 2764

原创 【详尽版】DETR系列之MS-DETR(2024 CVPR)

本文提出了一种名为MS-DETR的方法,通过混合一对一和一对多监督来提高DETR模型的训练效率。与传统DETR仅使用一对一监督不同,MS-DETR在主解码器的对象查询中引入了一对多监督。实验结果显示,该方法显著提升了多个DETR变体的性能,包括DAB-DETR、Deformable DETR及其扩展版本Deformable DETR++。此外,MS-DETR在保持计算和内存效率的同时,进一步提高了与其他采用一对多监督的DETR变体结合时的性能。

2025-03-11 07:00:00 713

原创 【详细版】DETR变体之Conditional DETR(2021 ICCV)

本文提出了一种条件DETR方法,通过引入条件交叉注意力机制来加速DETR的训练收敛。该方法从解码器嵌入中学习条件空间查询,用于多头交叉注意力,从而使得每个注意力头可以关注特定区域,如物体边界或内部区域。这减少了对高质量内容嵌入的依赖,从而简化了训练过程。实验结果显示,对于强弱不同的骨干网络,条件DETR比原版DETR快6.7到10倍。

2025-03-10 07:00:00 864

原创 VoVNet V2(2020 CVPR)

本文提出了一种名为CenterMask的实时无锚点实例分割方法,该方法通过在无锚点的一阶段目标检测器FCOS基础上添加空间注意力引导掩码分支来实现。CenterMask使用改进的VoVNetV2作为主干网络,引入残差连接和有效的挤压激励模块(eSE),从而提升模型性能。实验结果表明,CenterMask在COCO数据集上实现了38.3%的掩码平均精度(APmask),优于所有先前的单模型方法,同时速度更快。

2025-03-09 07:00:00 938

原创 StarNet(2024 CVPR)

本研究探讨了“星操作”在神经网络设计中的应用,该操作通过逐元素相乘将输入映射到高维非线性特征空间。研究发现,这种操作在保持紧凑结构的同时,能显著提升模型性能和降低延迟。研究引入了StarNet模型,展示了其在不同任务中优于其他高效模型的表现。实验结果表明,星操作不仅提升了模型的准确性,还增强了其在低延迟设备上的表现。该论文题为《Rewrite the Stars》,主要研究了在网络设计中“星操作”(元素逐个相乘)的潜力。尽管该操作的直观性得到广泛认可,但其理论基础仍然未被深入探讨。

2025-03-08 07:00:00 1541

原创 YOLO V2(2017 CVPR)

本文介绍了YOLO9000,一种实时的目标检测系统,可以识别超过9000种物体类别。YOLOv2通过引入批量归一化、高分辨率分类器和直接位置预测等改进措施,成为最先进的实时目标检测模型。使用多尺度训练方法,YOLOv2可以在不同图像尺寸下运行,提供速度与准确性的权衡。此外,YOLO9000通过联合训练检测和分类数据,利用ImageNet和COCO数据集进行训练,实现了对未见过的物体类别的有效识别,尽管这些类别缺乏标注的检测数据。

2025-03-07 07:00:00 1035

原创 YOLO V1(2016 CVPR)

YOLO是一种新的目标检测方法,将对象检测重新定义为从图像像素到边界框坐标和类别概率的回归问题。YOLO通过单一神经网络直接预测完整图像中的边界框和类别概率,优化整个检测性能。该方法比传统方法更快,实时处理速度可达45帧/秒,且在保持高平均精度的同时实现了实时速度。尽管YOLO在定位准确性上略逊于其他系统,但在减少背景误检方面表现更好,并能更好地泛化到不同领域。论文标题:《You Only Look Once: Unified, Real-Time Object Detection》摘要。

2025-03-06 07:00:00 840

原创 VoVNet(2019 CVPR)

本文提出了一种高效的骨干网络VoVNet,旨在解决DenseNet在实时目标检测中的低效问题。DenseNet通过密集连接保存中间特征,但其线性增加的输入通道导致了内存访问成本增加,从而降低了计算效率和能源效率。VoVNet采用一次聚合(One-Shot Aggregation, OSA)模块,不仅保持了DenseNet多感受野特征的优势,还通过仅在最终特征图上聚合所有特征来克服了密集连接的低效问题。

2025-03-05 07:00:00 1385

原创 MobileViT V3(2022 CV)

本文介绍了一种改进的轻量级模型MobileViTv3,该模型通过优化融合块来提高性能。具体而言,MobileViTv3用1x1卷积层替代了融合块中的3x3卷积层,并将局部特征与全局特征融合,同时在融合块中添加输入特征,形成残差连接。此外,在局部表示块中使用深度可分离卷积层进一步减少参数和计算量。这些改进使得MobileViTv3在保持相似参数和计算量的情况下,实现了更高的精度。

2025-03-04 07:00:00 963

原创 ConvSNP(2022 JMC)

本文提出了一种基于脉冲神经P系统(SNP)机制的新神经元模型——SNP-like神经元,并在此基础上开发了一类新的深度学习模型——ConvSNP模型。SNP-like神经元具有与经典神经元不同的输入输出关系:其输出是非线性函数输入的线性函数。

2025-03-03 07:00:00 1208

原创 MobileViT V2(2023 TMLR)

本文提出了一种可分离自注意力机制,以解决移动视觉变换器(MobileViT)中多头自注意力(MHA)造成的效率瓶颈。现有的MHA方法在处理k个标记时的时间复杂度为O(k²),这在资源受限的设备上会导致高延迟。新提出的可分离自注意力方法将复杂度降低到O(k),并通过元素级操作(如加法和乘法)来计算自注意力,从而改善了推理速度。

2025-03-02 07:00:00 1968

深度学习5种花卉可直接训练的分类数据集

数据集中包含5种类别,分为训练集和测试集。 训练集每一类别分别有570张图像、809张图像、577张图像、630张图像和720张图像; 测试集每一类别分别有63张图像、89张图像、64张图像、69张图像和79张图像。

2025-04-11

项目实战AlexNet实现花卉分类-可更换自己数据集

资源中包含花卉数据集,可直接跑通代码!!! 复现步骤: 1、配置torch环境,安装相关依赖包 2、直接运行 train.py 代码

2025-04-09

深度学习中用于提升CNN性能的CBAM注意力机制(2018 ECCV)

内容概要:本文介绍了卷积块注意力模块(CBAM),一种应用于卷积神经网络(CNN)的新方法。CBAM通过引入轻量级的注意力机制,在通道和空间维度上增强表示能力,显著提升了各类CNN网络的效果。具体而言,CBAM首先利用平均池化和最大池化获取通道注意力图,强调或抑制不相关特征;再生成空间注意力图决定特征的空间位置分布。实验证明,这一机制在多个视觉任务和数据集上带来了准确性和可解释性的提高。此外,文章还包括大量详尽实验以验证模型设计的有效性和通用性。 适合人群:从事机器学习特别是计算机视觉领域的研究人员和技术开发者,以及希望深入了解深度学习和CNN改进的学术爱好者。 使用场景及目标:适用于需要增强模型表现力的各种图像处理任务。具体应用场景包括但不限于分类任务(如ImageNet)、目标检测(如MS COCO、VOC2007)。旨在通过对重要视觉特性有更高敏感度从而改善结果的质量。 阅读建议:对于有兴趣探索深度学习新技术的人士来说,此文提供的见解有助于理解现代AI技术背后的思考方式,并启发对未来模型开发方向的理解和创新实践。

2025-01-22

SENet: 利用Squeeze-and-Excitation块进行通道间依赖性建模与特征重校准的卷积神经网络

内容概要:本文介绍了SENet及其核心组件Squeeze-and-Excitation(SE)块的设计理念和实现方法。论文针对传统卷积神经网络(CNN)中存在的通道间相互依赖性未得到显式建模的问题,提出了通过SE块显式建模通道依赖性,提高网络表示能力的方法。SE块的核心操作分为两步:“挤压”(Squeeze),利用全局平均池化聚集空间维度的信息,生成全局特征描述符;“激励”(Excitation),利用生成的描述符生产每通道调制权重,并用于重新校准特征图。该结构简单且通用,能在已有先进CNN架构中应用,带来显著性能提升,同时计算开销较小。文章通过广泛的实验证明SENet在多个任务上的有效性,如ImageNet、场景分类和目标检测任务,并在ILSVRC 2017比赛中取得优异成绩。 适合人群:熟悉深度学习基础知识、对卷积神经网络有一定了解的科研人员和技术从业者。 使用场景及目标:本论文适用于那些想要深入理解或改进卷积神经网络设计的人士,旨在探讨如何通过增强卷积网络的能力提高视觉任务性能。 其他说明:SENet引入了一种新颖的网络架构设计思路,通过在现有模型基础上叠加轻量级SE模块改善表现,特别强调了通道依赖关系的建模,这对后续深度学习发展产生了深远影响。研究不仅验证了该方法的有效性,还通过对比实验分析了各个成分的作用,如挤压与激励的效果差异等。

2025-01-22

深度学习中ResNet深度残差网络解决网络退化问题及目标检测应用

内容概要:本文详细介绍了ResNet(深度残差网络)的核心原理及其在图像识别和目标检测领域的创新应用。ResNet通过引入残差模块解决了深层网络存在的网络退化、梯度消失等问题。文中解析了残差模块的设计思想,即采用跳跃连接(shortcut connection),将输入直接传递到输出,并拟合残差而不是实际输出。此外,还探讨了ResNet在网络架构设计上的优点以及其数学理论基础,对比展示了ResNet相较于传统线性结构网络的优势。同时涵盖了ResNet在目标检测任务中的表现,尤其是在不同的数据集上取得的成绩。 适合人群:计算机视觉研究者、从事深度学习尤其是图像识别方向的专业技术人员和学生。 使用场景及目标:理解和实现深度残差网络,以应对复杂图像分类任务,提高目标检测模型精度,研究改进深层神经网络中存在的退化、过拟合等难题的新思路。 其他说明:ResNet是由何恺明等人提出并在2015年获得多项国际竞赛冠军的技术成果之一。其研究结果发表在计算机视觉顶级会议CVPR 2016年会上,并被评为最佳论文奖。对于希望深入了解现代CNN发展脉络的人来说,这是一个不可错过的重要文献。

2025-01-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除