自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 yolov8.yaml文件解析

要求的是拼接的两个特征图的尺寸是一样的,通道可以不一样。操作是要求模型的通道和尺寸都相同,起来,得到一个新的特征图。操作是将两个特征图的相应。,得到一个新的特征图。操作是将两个特征图在。

2025-04-27 20:07:47 362

原创 YOLOv8改进时遇到的报错及其解决

解决:通过--master_port参数来指定主节点使用的端口号 如:CUDA_VISIBLE_DEVICES=4,5 torchrun --nproc_per_node=2 --master_port 15666 train_test.py。torchvision.transforms.functional_tensor 替换成torchvision.transforms.functional 就能正常运行了。在服务器环境中,特别是当多个用户或任务同时运行时,可能已经被其他DDP训练任务占用。

2025-02-19 16:27:43 343

原创 论文阅读《LSM-YOLO: A Compact and Effective ROI Detector for Medical Detection》(axiv 2024)

本文提出了一种名为轻量级旁路匹配Lightweight Shunt Matching-YOLO(LSM-YOLO)的新型模型,该模型包含轻量级自适应提取(LAE)和多路径旁路特征匹配(MSFM)。来精细化特征提取,模型可以从多尺度特征图中获得更多的上下文信息和高分辨率细节,从而在减少噪声影响的同时提取医学图像中ROI的详细特征。被用来进一步细化高级语义特征和低级视觉特征的融合,使得ROI特征与邻近特征之间的融合更好,从而提高检测率,以更好地辅助诊断。

2025-02-19 16:22:56 234 1

原创 论文阅读《Towards Large-Scale Small Object Detection:Survey and Benchmarks》(TPAMI 2023)

训练基于学习的检测器的最关键步骤之一是采样,一般的采样策略通常无法提供足够的正样本,从而损害最终的性能。因此,缓解这一低质量问题的一个直接方法是通过模仿较大物体的区域特征来丰富小物体的区域特征。图像中的物体通常会在尺度上发生变化,这种变化在交通场景和遥感图像中尤其严重,导致单个检测器的检测难度不同。信息丰富的上下文有时可以比物体本身提供更多的决策支持,特别是在识别视觉质量差的物体时。高分辨率图像中的小物体往往分布不均匀且稀疏,而一般的分块检测方案会在这些空块上消耗过多的计算,导致推理效率低下。

2025-02-19 16:21:29 282 1

原创 论文阅读《基于激光雷达点云的3D目标检测方法综述》(计算机科学 2023)

根据特征处理的不同,基于点云的3D目标检测方法可分为:基于原始点云、基于体素、基于多视图和基于融合的方法。点云数据获取成本高,数据量少;点云主要通过激光雷达扫描获取和相机获取,相机获取的主要方式有两种,一种是通过双目立体摄像机拍摄到两幅不同位置的图像信息,利用位置偏差计算生成点云;相机获取点云的优点是设备价格便宜,缺点是检测精度低,视野窄,存在盲区,容易受光照影响等。点云数据具有海量性、分布不均匀性、散乱性、噪声多样性以及坐标系随意性等特点,因此需要对采集到的点云进行预处理。

2025-02-19 16:20:09 429 1

原创 论文阅读《LNG-Transformer:基于多尺度信息交互的图像分类网络》(计算机科学 2023)

在Global Attention中,首先将特征图按照(H ∕ 7) × (H ∕ 7)窗口划分,再进行窗口个数和窗口大小维度的交换,实现在高的维度上每隔H ∕ 7次做一次采样,在宽的维度上每隔H ∕ 7做一次采样,并且保证了当前注意力窗口与之前注意力窗口的尺寸不变,即7 × 7。在Neighbor Attention中,与Local Attention不同的是,首先需要将窗口向右下滑动,滑动的步数为窗口的一半,然后再进行窗口划分,进行邻居信息的学习,最后还原到初始特征尺寸。

2025-02-19 16:19:16 207 1

原创 Yolov8学习

C2F模块将特征图分为多个部分,分别进行处理,并通过跳跃连接将高层特征与低层特征结合,增强了特征的表达能力和信息传递效率。由于YOLOv8采用无锚框策略,在样本匹配过程中,摒弃了传统的IOU或基于锚框与真实框宽高比的匹配方法,采用了更为灵活和精确的。在PAN中,YOLOv8移除了上采样阶段的卷积结构,并用C2F模块替代C3模块,从而进一步优化了特征融合的效率。匹配方式,即通过动态调整匹配标准,综合考虑物体的类别、大小、形状和置信度等因素,提升目标检测的准确性。

2024-10-26 20:53:51 352

原创 Yolov5学习

在迁移学习中,将预训练模型的一部分“冻结”(即其权重在训练过程中不更新),而对模型的其他部分进行训练,以适应新数据。为了确保不同尺度的预测对总损失的贡献合理,需要设置一个合理的权重来平衡损失,yolov5中平衡权重分别为 [4.0, 1.0, 0.4],这种方法确保不同尺度的预测对总损失的贡献适当。将输入特征分成两个分支,每个分支进行卷积处理,然后再将它们合并,实现了CSP瓶颈结构,增强了特征提取的多样性和模型的表现力,同时保持了较低的计算成本。宏观上看,是一个单个输入,三个输出的模型。

2024-10-26 20:50:48 751

原创 Feature Pyramid Networks for Object Detection论文阅读

从特征金字塔的最高层开始,通过上采样操作(双线性插值或转置卷积)将其分辨率增加一倍,使其与下一层的特征图分辨率相同。将上采样后的特征图与来自自底向上路径的相应层级的特征图进行融合。这些特征图具有不同的分辨率和语义信息。在自底向上的过程中,选择部分关键层级的特征图作为特征金字塔的基础。经过自顶向下的特征融合后,每一层都融合了来自高层的语义信息和来自低层的细节信息,形成了具有多尺度特征的最终特征图。优点:将不同层级的特征进行融合,结合了高层特征图的强语义信息和低层特征图的高分辨率信息,提升了检测性能。

2024-09-09 09:32:13 227 1

原创 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文阅读

对softmax分类器的输出进行阈值处理,保留高于阈值的候选区域作为最终的检测结果。然后,对这些检测结果应用非极大值抑制(NMS),去除重叠度较高的包围框,得到最终的、互不重叠的检测结果。RPN对这些候选框进行二分类(前景或背景)和边界框回归,调整候选框的位置和大小,生成高质量的候选区域。优点:引入RPN候选区域的生成更加高效,RPN和目标检测网络共享特征图,减少了计算量,提高效率。将RPN生成的候选区域映射到特征图上,对每个候选区域进行ROI池化,得到固定大小的特征向量。缺点:网络结构复杂、超参数较多。

2024-09-09 09:29:07 245 1

原创 Fast R-CNN论文阅读

层的输出作为全连接层的输入,并定义多任务损失函数,分别与softmax分类器和bounding box回归器相连,以得到候选区域的类别和坐标包围框。优点:单阶段任务,整个网络可以一次性进行训练和优化,同时进行分类和回归任务的学习,有利于提升网络的泛化能力。,将不同大小的候选区域映射到特征图上,并通过池化操作得到固定大小的特征向量。对所有得到的包围框进行非极大值抑制(NMS),以去除重叠。通过深度网络中的卷积层对图像进行特征提取,得到特征图。的包围框,得到最终的检测结果。对候选区域进行ROI。

2024-09-09 09:27:18 233 1

原创 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition论文阅读

优点:相较于R-CNN,能够接受任意尺寸的输入图像,只对整张图像作一次卷积计算,避免计算冗余,计算效率更高,且能够提取多尺度的特征信息。回归操作则用于调整候选框的位置和大小,使其更准确地包围目标。将候选框区域划分为多个不同大小的网格,并在每个网格内进行池化操作,得到固定数量的特征。根据候选框在原图中的位置,通过映射关系找到对应在特征图上的区域。通过非极大值抑制(NMS)去除冗余的候选框,得到最终的检测结果。对映射到特征图上的候选框区域进行空间金字塔池化操作。算法获取输入图片的候选框,提取出多个可能的。

2024-09-09 09:23:07 202 1

原创 Rich feature hierarchies for accurate object detection and semantic segmentation论文阅读

5)使用边界框回归修正候选框位置以减少定位误差(Selective Search 算法得到的候选框并不是框得很准确,R-CNN错误更多是由于定位不佳)1)获取输入图像( Selective Search )3)针对每个候选区域提取特征(CNN)4)使用SVM对每个区域进行分类。2)生成候选区域(约两千个)

2024-08-13 07:37:24 266 1

Feature Pyramid Networks for Object Detection论文阅读

Feature Pyramid Networks for Object Detection论文阅读

2024-09-09

Faster R-CNN论文阅读

Faster R-CNN论文阅读

2024-09-09

Fast R-CNN论文阅读

Fast R-CNN论文阅读

2024-09-09

spp-net论文阅读笔记

spp-net论文阅读笔记

2024-08-18

R-CNN论文阅读笔记

论文笔记

2024-08-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除