初版YOLO的原理详解

阿颖&阿伟

已于 2025-02-25 16:29:09 修改

阅读量935

点赞数 17

分类专栏：【13】工作面试【3-5】目标检测任务文章标签： YOLO

于 2025-02-25 00:19:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sazass/article/details/145840786

版权

【13】工作面试同时被 2 个专栏收录

16 篇文章

订阅专栏

【3-5】目标检测任务

1 篇文章

订阅专栏

YOLO（You Only Look Once）

YOLO（You Only Look Once）

YOLOv1（2015年）Joseph Redmon

YOLO主要应用于实时目标检测，如自动驾驶中的车辆检测、安防监控中的异常行为识别、工业自动化中的缺陷检测、医疗影像中的病灶识别、智能交通中的车牌和交通标志检测等。

1. 核心思想

YOLO将目标检测视为一个回归问题，通过单次前向传播直接预测目标的边界框和类别概率。与传统的两阶段检测方法（如R-CNN系列）不同，YOLO不需要生成候选区域，而是直接在整张图像上进行预测。

2. 网络结构

YOLO的网络结构基于卷积神经网络（CNN），主要由卷积层、池化层和全连接层组成。初版YOLO的网络结构包含24个卷积层和2个全连接层。
在这里插入图片描述

3. 输出表示

YOLO将输入图像划分为S×S的网格（初版YOLO中S=7）。每个网格单元负责预测B个边界框（初版YOLO中B=2），每个边界框包含5个值：边界框的中心坐标（x, y）、宽度（w）、高度（h）以及置信度（confidence）。此外，每个网格单元还预测C个类别的概率（初版YOLO中C=20）。
在这里插入图片描述

4. 损失函数

YOLO的损失函数由多个部分组成：

边界框坐标损失：使用平方误差损失函数，衡量预测边界框与真实边界框之间的差异。
在这里插入图片描述

置信度损失：衡量预测边界框的置信度与真实边界框的IoU（交并比）之间的差异。
在这里插入图片描述

类别损失：衡量预测类别概率与真实类别标签之间的差异。
在这里插入图片描述

5. 非极大值抑制（NMS）

YOLO使用非极大值抑制来去除重叠的边界框，保留置信度最高的边界框。
非极大值抑制（Non-Maximum Suppression, NMS）是目标检测中常用的后处理步骤，用于去除重叠的边界框，保留置信度最高的边界框。YOLO在预测阶段使用NMS来过滤冗余的检测结果。以下是NMS的具体操作步骤：

输入：
边界框列表：每个边界框的坐标 (x1,y1,x2,y2)，其中 (x1,y1)是左上角坐标，(x2,y2)是右下角坐标。
置信度分数列表：每个边界框的置信度分数（表示边界框包含目标的概率）。
IoU阈值：用于判断两个边界框是否重叠的阈值（通常设置为0.5）。

步骤

按置信度排序：将所有边界框按照置信度分数从高到低排序。
初始化空列表：创建一个空列表 keep，用于保存最终保留的边界框。
循环处理边界框：
从置信度最高的边界框开始，依次处理每个边界框：
3.1 将当前边界框添加到 keep 列表中。
3.2 计算当前边界框与剩余所有边界框的交并比（IoU）。
3.3 移除所有与当前边界框的IoU大于设定阈值的边界框（即去除重叠的边界框）。
返回结果：返回 keep 列表中的边界框，这些边界框是经过NMS处理后的最终检测结果。

6. 主要创新点

端到端训练
YOLO将目标检测问题转化为一个回归问题，通过单次前向传播直接预测目标的边界框和类别概率，实现了端到端的训练。
实时检测
由于YOLO的网络结构相对简单，且不需要生成候选区域，因此其检测速度非常快，能够实现实时目标检测。
全局上下文信息
YOLO在整张图像上进行预测，能够利用全局上下文信息，减少背景误检。
简化流程
YOLO简化了目标检测的流程，去除了传统方法中的候选区域生成和特征重采样步骤，大大提高了检测效率。

7. YOLO v1的优缺点

讨论YOLO的优点，如实时检测、全局上下文信息等。

讨论YOLO的缺点，如对小目标和密集目标的检测效果较差。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。