- 博客(32)
- 收藏
- 关注
原创 认知篇#7:YOLO的多目标跟踪常用的评价指标有哪些?怎么看?
通过结合YOLOv8的Track功能和多目标跟踪的评价指标,本文深入探讨了如何在动态目标监测中提高检测效果。HOTA、MOTA、MOTP、IDF1和IDR等指标全面评估了跟踪精度、稳定性和一致性,而IDSW和FPS则进一步检验了模型的效能。这些指标的综合应用为多目标跟踪提供了重要的量化工具,有助于提升目标检测与跟踪的准确性与实时性,特别在复杂场景下,如鱼群或动物群的监测中,表现出了明显的优势。
2025-05-04 15:39:20
1010
原创 文献阅读篇#7:5月一区好文阅读,BFA-YOLO,用于建筑信息建模!(下)
解析:这个章节虽然作者设置为讨论,但实际上还是实验。做了热力图、感受野、TIDE、失败案例、语义分割总共五个实验、绘图和分析,工作量巨大。这些内容一部分很可能是审稿人的意见和要求。给我们写作论文丰富文章内容和工作量提供了思路。
2025-05-02 14:40:16
1269
原创 文献阅读篇#6:5月一区好文阅读,BFA-YOLO,用于建筑信息建模!(中)
期刊简介:《Advanced Engineering Informatics》创刊于2002年,由Elsevier Ltd出版商出版,出版周期Quarterly。该刊已被SCIE数据库收录,在中科院最新升级版分区表中,该刊分区信息为大类学科工程技术1区,2023年影响因子为8。这篇文章收录于五月份,是一篇最近发表的文章,让我们一起看看它有何过人之处,能得到一区期刊的赏识。文章标题:BFA-YOLO: A balanced multiscale object detection network for bui
2025-05-02 14:03:54
1210
原创 文献阅读篇#5:5月一区好文阅读,BFA-YOLO,用于建筑信息建模!(上)
期刊简介:《Advanced Engineering Informatics》创刊于2002年,由Elsevier Ltd出版商出版,出版周期Quarterly。该刊已被SCIE数据库收录,在中科院最新升级版分区表中,该刊分区信息为大类学科工程技术1区,2023年影响因子为8。这篇文章收录于五月份,是一篇最近发表的文章,让我们一起看看它有何过人之处,能得到一区期刊的赏识。
2025-05-01 22:33:04
1345
原创 投稿篇#3:会议的Important Datas是什么意思?
在学术会议中,"Important Dates" 是确保各项工作顺利进行的关键时间节点。通过了解和遵守这些日期,参会者和投稿者能够有效规划自己的时间,确保论文按时提交、注册以及其他相关活动的顺利进行。特别是论文提交、审稿通知、最终版本提交以及会议注册等环节,都可能影响会议的参与和论文的发表。因此,了解并密切关注这些日期对于参与者来说至关重要,避免错过任何重要的时间点,从而确保顺利参与会议并获取预期的成果。此外,支付方式、论文展示形式(口头报告或海报展示)等细节也需要提前确认,以免出现意外情况。
2025-04-06 10:48:11
1264
原创 论文写作篇#8:双栏的格式里怎么插入横跨两栏的图片和表格
在双栏排版场景下,为实现图片/表格跨栏展示并保证信息清晰可读,可通过WPS高效完成:选中目标图片/表格及其图名/换行符后,在菜单栏切换为“一栏”模式,系统将自动插入分节符并保持前后内容格式稳定,避免传统Word操作中复杂的分节符手动调整问题。该方法无需代码或复杂设置,既能突破双栏尺寸限制实现跨栏展示,又能确保文档修改过程中跨栏元素的格式独立性,显著提升学术图表在双栏模板中的排版效率与视觉效果。
2025-04-05 20:34:37
876
原创 文献阅读篇#4:YOLOE,清华大学25年发布可以看清一切的YOLO模型
清华大学团队提出的YOLOE是基于YOLO架构的突破性开放场景目标检测与分割模型,通过引入可重参数化的区域-文本对齐模块(RepRTA)、语义激活视觉提示编码器(SAVPE)及惰性区域-提示对比(LRPC)三大核心技术,实现了多模态交互与高效推理的融合。
2025-04-04 12:17:15
1162
原创 投稿篇#2:YOLO到底还能投哪些期刊/会议,期刊介绍
寻找适合投稿YOLO系列文章的期刊同样需要精心筛选和确认。通过知网搜索可以帮助确定潜在的期刊,尤其是学术期刊部分,但要注意知网更多适用于中文文献。而出版社官网,尤其是像MDPI这样的开放获取平台,是寻找期刊的好方法,平台内有许多收录YOLO相关研究的期刊,如《Sensors》、《Applied Sciences》和《Electronics》等。投稿前,需要确认期刊是否符合SCI范围,可以通过中科院分区表来验证。此外,还要注意区分开放获取(OA)期刊与非OA期刊,OA期刊一般更易投稿,但会收取一定的出版费用。
2025-03-30 16:47:45
782
原创 投稿篇#1:YOLO到底还能投那些期刊/会议,EI会议介绍
在撰写学术论文时,选择合适的期刊和会议非常重要,尤其是在竞争日益激烈的领域中,如YOLO的相关研究。为了找到合适的EI会议,可以通过IEEE检索系统,使用关键词搜索并结合高级选项来筛选高质量的会议。除了IEEE平台,XHS、CSDN等平台也能帮助搜索EI会议,但需要注意验证会议是否真正被稳定检索。投稿时,务必通过会议官网确认相关信息,如收稿范围、稿件要求和版面费等,以确保选择的是正规、高质量的会议。总之,细致的检索和确认细节是提高论文发表成功率的重要步骤。
2025-03-29 19:20:57
929
原创 认知篇#6:什么是激活函数?激活函数有什么用?几个简单激活函数的介绍(2)
激活函数在神经网络中发挥着至关重要的作用,不仅能够处理复杂的非线性问题,还能提升网络的表达能力。通过引入激活函数,神经网络能够避免仅呈现为线性模型,从而有效提升其性能。常见的激活函数包括Sigmoid、Tanh、ReLU、Leaky ReLU等,它们各有优缺点,并适用于不同的场景。为了进一步优化神经网络性能,新的激活函数如PReLU、RReLU、ELU、SELU和Maxout等相继被提出,这些函数解决了传统激活函数中的一些问题,如梯度消失、神经元死亡等。
2025-03-29 18:27:28
1114
原创 文献阅读篇#3:论文品读”SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation“,MSCA模块
摘要摘要译文:我们提出了SegNeXt,一个简单的用于语义分割的卷积网络架构。最近由于在编码空间信息时的自注意效率而主导了语义分割领域。在本文中,我们证明了卷积注意是一种比自注意机制更有效的上下文信息编码方法。通过分析成功的分割模型所具有的特征,我们发现了导致分割模型性能提高的几个关键因素,这促使我们设计一种新的卷积注意力网络。
2025-03-26 16:35:15
1210
原创 论文写作篇#7:YOLO论文中的全称和缩写,什么时候全称什么时候缩写,全称和缩写谁在括号里?
全文首次出现:全称 + 缩写,缩写在括号内之后的引用:直接使用缩写长篇或复杂文档:每个主要部分或章节首次出现时再次给出全称和缩写确保在整篇论文中保持一致性,并且在适当的时候提醒读者缩写的含义。这可以通过引言中的术语表或附录中的缩写列表来实现。
2025-03-24 10:37:32
633
原创 认知篇#5:什么是激活函数?激活函数有什么用?几个简单激活函数的简介(1)
激活函数在神经网络中扮演着至关重要的角色,它通过控制信号的大小和增强网络的表达能力,帮助神经网络处理复杂的非线性问题。激活函数的引入能够防止神经网络仅表现为线性模型,进而提升深层网络的表现力。常见的激活函数包括Sigmoid、Tanh、ReLU和Leaky ReLU,每种函数都有其独特的优缺点。
2025-03-23 19:27:56
1145
原创 模块学习篇#2:解析常用于YOLO等深度学习模型的注意力机制CBAM
CBAM(Convolutional Block Attention Module)是一种旨在提升卷积神经网络(CNN)性能的注意力机制模块。通过引入通道注意力(CAM)和空间注意力(SAM)机制,CBAM能够有效地提升模型的特征表达能力,专注于重要的通道特征和空间位置特征。其设计不仅轻量级且计算效率高,能在不增加模型复杂度的情况下显著改善性能。CBAM的即插即用特性使得它能够方便地集成到现有网络架构中,适用于多种深度学习应用。
2025-03-22 12:05:33
1296
原创 文献阅读篇#2:YOLO改进类的文章如何高效进行文献阅读(对于初学者)
文献阅读对于学术研究和专业学习至关重要,尤其对于初学者来说,掌握有效的文献阅读方法能够大大提高学习效率。首先,文献检索应从中文文献入手,确保对专业术语有基础的理解,然后逐步过渡到英文文献。在检索平台上,知网、爱思唯尔、Springer和MDPI等都是常用且高质量的资源来源。接着,文献记录是提高学习效率的关键,使用工具如Excel来详细记录文献的标题、结构、数据集等信息,不仅能帮助了解论文的内容,还能为未来的投稿提供便利。
2025-03-21 22:37:01
594
原创 认知篇#4:YOLO评价指标及其数学原理的学习
在机器学习和深度学习的任务中,模型的性能评估至关重要,而评价指标则为我们提供了多角度的衡量标准。常见的分类模型评价指标包括精确率(Precision)、召回率(Recall)、F1-Score、IoU、置信度、AP(平均精度)和mAP(平均精度均值)等。每个指标侧重于不同方面的性能表现,如精确率衡量模型正确预测的比例,召回率则关注模型对真实对象的检测能力,IoU用于衡量预测框与真实框的重叠度,置信度则帮助筛选高质量的检测结果。
2025-03-19 21:30:29
1354
原创 模块学习篇#1:浅析SPD-Conv的基本原理(应用理解向)
SPD-Conv(Spatially Separated and Deformable Convolution)是一种针对低分辨率图像和小物体检测优化的卷积操作,其创新之处在于通过避免传统卷积中的步长大于1的卷积和池化操作,从而更好地保留图像的细节信息。SPD-Conv通过对输入图像进行空间划分,将其分割成多个子图,并通过特征融合的方式将这些子图合并,最终通过一个步长为1的卷积层进行进一步处理,从而获得更为精细的特征表示。这种结构特别适用于处理低分辨率图像,能够提升模型在小物体检测等任务中的表现。
2025-03-19 14:23:24
1294
原创 文献阅读篇#1:C会/期刊的改进YOLO论文应放弃即插即用,至少要学会简单融合拼接(1)
在学习会议论文中的创新点时,我们主要探讨了深度学习模型的三类改进方法:模块改进、网络结构改进和损失函数改进。模块改进通常通过替换或优化现有模块(如卷积层、检测头等)来提升性能,适合初学者;网络结构改进则涉及调整骨干网和颈部网络以提高模型的特征提取和小目标检测能力,通常需要较强的基础;损失函数改进则分为现成应用、融合新方法和原创性改进,旨在优化模型训练过程中的目标函数。
2025-03-18 20:38:27
903
原创 模型网络学习篇#3:Efficient-RepGFPN from DAMO-YOLO,来自阿里达摩院的YOLO
本文分析了DAMO-YOLO模型中Efficient RepGFPN的网络结构,并指出了代码与图示之间的不一致性,特别是在Fusion模块的数量和布局上。通过详细解读DAMO-YOLO的网络结构,文章逐步解释了如何从代码中还原网络架构。
2025-03-17 10:21:52
1448
原创 论文写作篇#6:在C会里,YOLO文章的摘要怎么写?Conclusion怎么写?摘要和Conclusion有哪些区别?
本文讨论了C会YOLO论文中摘要和Conclusion板块的写作方法及其区别。摘要通常包含背景、改进和总体效果,篇幅在100-250字之间,重点是概括核心信息。Conclusion则更加简洁,通常在50-200字之间,主要总结所做的改进,强调效果,但不涉及详细的数值或背景。摘要比Conclusion更加丰富,且更注重具体的结果与描述,而Conclusion则突出改进和整体效果的总结,通常不包括详细的背景和实验部分。
2025-03-15 09:22:41
893
原创 论文写作篇#5:想发C会,YOLO的消融实验Ablation Experiment/Study怎么写?
本文讨论了消融实验在深度学习中的重要性,强调了通过逐步移除或修改模型组件来评估其对整体性能的贡献。文章指出,消融实验需要精心设计,包括选择合适的评估指标(如模型复杂度、准确度和实时性),并确保每个模块的加入能带来性能的提升。对于会议论文,建议通过逐步累加模块的方式进行实验,并简要阐述每个改进的效果,而不必详细列出每个数据变化。此外,消融实验可以与对比实验结合,以节省篇幅。
2025-03-14 17:24:56
2282
原创 论文写作篇#4:YOLO还能发C会论文吗?C会论文的YOLO文章结构解析
本文分析了YOLO作为主流目标检测模型在不同垂直领域的改进,展示了多篇关于YOLO改进的会议论文,篇幅一般控制在9-13页,结构灵活,尽管没有统一的格式要求。文章总结了8篇论文的结构和参考文献情况,C会论文参考文献主要引用了其他会议论文、期刊论文和arXiv预印本,没有死板要求。
2025-03-13 21:36:03
1574
原创 论文写作篇#3:YOLO改进模块的结构框图画法,推荐使用draw.io
本文介绍了两种模块应用策略:一种是直接使用现有模块并根据论文需求修改其结构图,另一种是通过将多个模块结合形成新的模块,提供了具体的操作步骤和示例。博文还推荐了几款绘图工具,特别是draw.io和PPT,因其易用性和丰富的模板,适合用于绘制论文中的神经网络结构图,并强调输出高分辨率图像的重要性。
2025-03-12 16:54:28
1103
原创 模型网络学习篇#2:YOLOv1——最开始的地方(2)
其实这块就叫做YOLOv1的全连接层。其实YOLOv1的网络结构是借鉴了GoogleNet的,输入图像的尺寸为448×448,经过24个卷积层,2个全连接的层(FC),最后在reshape操作,输出的特征图大小为7×7×30。(4)综上所述,因此每个grid cell输出的数据维度为30×1,而7×7个方格输出的维度即为7×7×30。全连接层之前,特征已经被打乱了,原来好好的照片被叠成了一个砖块,模型怎么去解读这个砖块里的特征呢?:假设全连接层有m个神经元,那么全连接层的权重矩阵W是一个m×n的矩阵。
2025-03-10 22:21:52
956
原创 论文写作篇#2:Evaluation metrics/Performance metrics评价指标怎么写?
本文主要讨论了论文中评价指标部分的写作技巧,强调如何避免查重并提高创新性。首先,通过减少写作的篇幅和巧妙换词换序,可以减少重复率。其次,采用串写的方式,即将多个评价指标有逻辑地连接在一起,增强文章的流畅性和逻辑性。另外,在涉及公式时,可以通过改变符号或详细写出数学过程来避开查重系统的检测。此外,使用完整的术语(如Precision、Recall、F1 Score等)也有助于降低重复率。总的来说,创新性地表达评价指标,并确保写作的逻辑性和清晰性,是提升论文质量和避免查重的关键。
2025-03-09 10:24:02
1216
原创 论文写作篇#1:Implementation details/Training environment and details(实验平台/训练环境/执行细节)怎么写?
初始学习率设置为 0.01,这是许多深度学习任务的常见起点,平衡了快速收敛的需求,而不会在梯度更新期间冒过冲的风险。使用 Mosaic 方法进行数据增强,这不仅增加了训练样本的多样性,还使模型能够更好地处理物体比例和方向的变化——考虑到海洋生物的多样化和不规则形状,这是一个重要的考虑因素。最后,进行了 200 个 epoch 的训练,以确保足够的模型收敛,如果收敛提前趋于平稳,可能会使用早期停止或调整学习率。在整个训练阶段,该模型使用了 0.01 的学习率以及 8 张图像的批量大小,每张图像的输入维度为。
2025-03-08 21:21:49
1248
原创 模型网络学习篇#1:YOLOv1——最开始的地方
此时我们再来看上图的448*448*3经过7*7*64,p=3,s=2的卷积,(先忽略池化,池化不影响通道数),生成一个通道数为64的112*112*64就容易理解了吧。过程就像这样,这里的Maxp,2*2,S-2,意思就是2*2里面取最大值,每隔2个取一个值。以上就是一个多通道卷积的过程,我们可以看到输入是3通道的,卷积核是3通道的,输出却是单通道的。就是输入图像,448*448*3就可以理解为表示大小是448*448的矩阵,这样的矩阵有3个,这3个矩阵可以理解为分别代表R、G、B的数值。
2025-03-07 14:13:04
592
原创 认知篇#3:YOLOv5的Conv是什么,Conv就是卷积吗
卷积一定是一个输入矩阵(特征)和一个卷积核矩阵做图中这样的计算。我们可以想象输入的就是一张单通道的黑白图像,特征矩阵的每一个数字代表了颜色的深浅(简单理解)。卷积核就相当于一个特征提取器,通过跟特征矩阵不断相乘输出一个新的特征矩阵。中,对卷积层进行改进的方法层出不穷,想要找到合适的方法实在很难。Convolution是卷积的意思,我们看一张图来简单理解一下神经网络里面的卷积的过程是什么样的。不论是看YOLOv5还是最新的YOLOv12的网络结构,里面都有一个看起来雷打不动的部分,Conv卷积层通常是由。
2025-03-06 19:45:29
529
原创 认知篇#2:YOLO的那些损失函数:IoU、GIoU、DIoU、CIoU、EIoU、SIoU、WIoU的原理浅析(2)
直接看最后那个公式,简单的说,LIoU上面一横代表的可以理解为IoU的平均值,平均值做分母,L*IoU做分子,那么就可以使损失大的难例得到更多的关注。距离损失跟DIoU的是一样的,ρ代表的依然是AB两框的中心间的距离,c代表的是AB两框最小外接框的对角线长度。从下面看,ρx,ρy跟EIoU的宽损失和高损失很像,代表的就是对宽高的考量。反之,用一个很小的预测框去框一个很大的真实框,框的不完整也不能说是一个完美的检测。简单地说就是它通过引入了一个惩罚项,试图把预测框赶到45°的规定的轨道上,以加速预测的收敛。
2025-03-05 09:22:52
1221
2
原创 认知篇#1:YOLO的那些损失函数:IoU、GIoU、DIoU、CIoU、EIoU、SIoU、WIoU的原理浅析(1)
当IoU交并比接近1时,1-IoU=0,这一项就αv=v。当IoU交并比接近0时,1-IoU=1,αv=v/(1+v)。总的来说,CIoU的作者的意图就是通过αv来增加对宽高的监督,使预测框更接近实际,实验证明确实如此。多的是后面的一堆,它就是表示(大框C面积-A、B并集面积)/大框C面积。ρ(A,B)是AB两框中心点之间的欧式距离,c是大框C(同GIoU)的对角线距离。首先就是当AB两框相距甚远,则IoU=0,无法判断两个框的远近,也就无法对训练有一个良好的推动作用;先看v,gt的下标表示的是真实框。
2025-03-04 20:56:45
984
原创 新的开始——记录一个机械学生向深度学习的转变
大三,中211机械非强势学科,专业4.3%(5/116),四级616,六级539,省级及以上学科竞赛16项(国家级11个),22年国奖,大小奖学金共11项。有两篇国际会议(CPCI)论文很水(算法相关),实用新型*1,外观*1,软著*1,主持省级大创*1。通过学习深度学习和人工智能基础知识和前沿论文,边学边实践边写,争取形成跨学科优势(而不是两边半吊子)这个账号将会作为记录我学习基础知识和论文思想的平台,主要会从容易实践和出结果的。时间已经不多,希望回头看到这篇文章的时候能为自己感到骄傲。
2025-03-03 11:51:25
281
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人