YOLO(You Only Look Once)
YOLOv1(2015年)Joseph Redmon
YOLO主要应用于实时目标检测,如自动驾驶中的车辆检测、安防监控中的异常行为识别、工业自动化中的缺陷检测、医疗影像中的病灶识别、智能交通中的车牌和交通标志检测等。
1. 核心思想
YOLO将目标检测视为一个回归问题,通过单次前向传播直接预测目标的边界框和类别概率。与传统的两阶段检测方法(如R-CNN系列)不同,YOLO不需要生成候选区域,而是直接在整张图像上进行预测。
2. 网络结构
YOLO的网络结构基于卷积神经网络(CNN),主要由卷积层、池化层和全连接层组成。初版YOLO的网络结构包含24个卷积层和2个全连接层。
3. 输出表示
YOLO将输入图像划分为S×S的网格(初版YOLO中S=7)。每个网格单元负责预测B个边界框(初版YOLO中B=2),每个边界框包含5个值:边界框的中心坐标(x, y)、宽度(w)、高度(h)以及置信度(confidence)。此外,每个网格单元还预测C个类别的概率(初版YOLO中C=20)。
4. 损失函数
YOLO的损失函数由多个部分组成:
边界框坐标损失:使用平方误差损失函数,衡量预测边界框与真实边界框之间的差异。
置信度损失:衡量预测边界框的置信度与真实边界框的IoU(交并比)之间的差异。
类别损失:衡量预测类别概率与真实类别标签之间的差异。
5. 非极大值抑制(NMS)
YOLO使用非极大值抑制来去除重叠的边界框,保留置信度最高的边界框。
非极大值抑制(Non-Maximum Suppression, NMS)是目标检测中常用的后处理步骤,用于去除重叠的边界框,保留置信度最高的边界框。YOLO在预测阶段使用NMS来过滤冗余的检测结果。以下是NMS的具体操作步骤:
输入:
边界框列表:每个边界框的坐标 (x1,y1,x2,y2),其中 (x1,y1)是左上角坐标,(x2,y2)是右下角坐标。
置信度分数列表:每个边界框的置信度分数(表示边界框包含目标的概率)。
IoU阈值:用于判断两个边界框是否重叠的阈值(通常设置为0.5)。
步骤
-
按置信度排序:将所有边界框按照置信度分数从高到低排序。
-
初始化空列表:创建一个空列表 keep,用于保存最终保留的边界框。
-
循环处理边界框:
从置信度最高的边界框开始,依次处理每个边界框:
3.1 将当前边界框添加到 keep 列表中。
3.2 计算当前边界框与剩余所有边界框的交并比(IoU)。
3.3 移除所有与当前边界框的IoU大于设定阈值的边界框(即去除重叠的边界框)。 -
返回结果:返回 keep 列表中的边界框,这些边界框是经过NMS处理后的最终检测结果。
6. 主要创新点
- 端到端训练
YOLO将目标检测问题转化为一个回归问题,通过单次前向传播直接预测目标的边界框和类别概率,实现了端到端的训练。 - 实时检测
由于YOLO的网络结构相对简单,且不需要生成候选区域,因此其检测速度非常快,能够实现实时目标检测。 - 全局上下文信息
YOLO在整张图像上进行预测,能够利用全局上下文信息,减少背景误检。 - 简化流程
YOLO简化了目标检测的流程,去除了传统方法中的候选区域生成和特征重采样步骤,大大提高了检测效率。
7. YOLO v1的优缺点
讨论YOLO的优点,如实时检测、全局上下文信息等。
讨论YOLO的缺点,如对小目标和密集目标的检测效果较差。