YOLOv11 改进策略 | Soft-NMS 与 IoU 家族损失，提升密集遮挡场景检测精度

最新推荐文章于 2025-05-10 16:05:09 发布

鱼弦

最新推荐文章于 2025-05-10 16:05:09 发布

阅读量841

点赞数 33

分类专栏： YOLO实践与改进文章标签： YOLO 计算机视觉目标跟踪

本文链接：https://blog.csdn.net/feng1790291543/article/details/147337621

版权

YOLOv11 改进策略 | Soft-NMS 与 IoU 家族损失，提升密集遮挡场景检测精度

介绍

在目标检测任务中，模型通常会为图像中的许多区域生成大量的候选边界框。非极大值抑制（Non-Maximum Suppression, NMS）是一种标准的后处理算法，用于去除冗余的边界框，保留最终的检测结果。然而，传统的 NMS 算法采用“硬阈值”的策略，当两个真实目标距离很近或发生严重遮挡时，得分较低的真实目标的边界框可能会被得分较高的目标的边界框误删，导致漏检。Soft-NMS 是一种对传统 NMS 的改进，它不直接移除与高得分框重叠的低得分框，而是降低其置信度得分，从而减轻误删问题。同时，为了让模型在训练阶段就预测出更精确、更符合实际目标的边界框，研究人员提出了多种基于 IoU（Intersection over Union）的边界框回归损失函数，如 GIoU、DIoU、CIoU、SIoU 和 EIou。将 Soft-NMS 应用于 YOLOv11 的后处理阶段，并结合先进的 IoU-based 损失函数进行模型训练，是提升模型在密集遮挡场景下检测精度的有效策略。

引言

在现实世界的许多场景中，目标往往会紧密排列或相互遮挡，例如拥挤的人群、繁忙的交通、堆叠的货物等。这些场景对目标检测算法提出了严峻的挑战。传统的 NMS 算法在处理这些情况时，容易将本属于不同目标的重叠边界框误判为同一目标的冗余检测，从而错误地抑制了得分较低但属于真实目标的边界框。Soft-NMS 通过引入一种平滑的得分衰减机制，使得被抑制的边界框仍有机会在最终结果中保留，有效缓解了传统 NMS 的“硬抑制”问题。另一方面，模型预测边界框的质量直接影响到 NMS 的效果。基于 IoU 的损失函数家族，通过直接优化预测框与真实框之间的 IoU 或其相关的几何特性，能够引导模型预测出更准确、更鲁棒的边界框，为 Soft-NMS 提供高质量的输入，从而共同提升在密集遮挡场景下的检测精度。

技术背景

NMS (Non-Maximum Suppression)

传统 NMS 的工作流程如下：

根据模型的置信度得分对所有预测边界框进行排序。
选择得分最高的边界框作为当前最优框。
计算当前最优框与所有其他边界框的 IoU。
移除所有与当前最优框 IoU 大于某个阈值（例如 0.5）的边界框。
重复步骤 2-4，直到所有边界框都被处理。

这种“赢者通吃”的策略在目标重叠较少时工作良好，但在密集场景下容易导致误删。

Soft-NMS

Soft-NMS 对传统 NMS 的步骤 4 进行了修改：

根据模型的置信度得分对所有预测边界框进行排序。
选择得分最高的边界框作为当前最优框。
计算当前最优框与所有其他边界框的 IoU。
对于与当前最优框 IoU 大于某个阈值的其他边界框，不是直接移除它们，而是根据 IoU 值降低它们的置信度得分。常用的得分衰减函数有两种：
- 线性衰减:
  $s_i = s_i \times \begin{cases} 1 & \text{if IoU}(M, b_i) < \text{IoU}_{thresh} \\ 1 - \text{IoU}(M, b_i) & \text{if IoU}(M, b_i) \ge \text{IoU}_{thresh} \end{cases}$
- 高斯衰减:
  $s_i = s_i \times e^{-\frac{\text{IoU}(M, b_i)^2}{\sigma}}$
  其中， $s_i$ 是边界框 $b_i$ 的原始得分， $M$ 是当前得分最高的边界框， $\text{IoU}(M, b_i)$ 是 $M$ 和 $b_i$ 之间的 IoU， $\text{IoU}_{thresh}$ 是 IoU 阈值， $\sigma$ 是高斯衰减的参数。
将当前最优框添加到最终检测结果列表中。
将当前最优框从待处理的边界框列表中移除。
重复步骤 2-6，直到所有边界框的得分都低于某个最终置信度阈值。

通过得分衰减，Soft-NMS 允许与高得分框重叠的边界框在得分降低后仍有机会被选中，从而减少了对密集目标的误删。

Bounding Box Regression Loss

边界框回归损失用于衡量模型预测的边界框与真实边界框之间的差异，并指导模型参数的优化。传统的回归损失函数（如 L1 或 L2 损失）是基于预测框和真实框的坐标差计算的，它们与 IoU 之间的相关性不强，且对尺度的变化敏感。

IoU (Intersection over Union)

IoU 是衡量两个边界框重叠程度的常用指标，定义为两个边界框交集面积与并集面积之比：

$\text{IoU} = \frac{\text{Area}(B_p \cap B_{gt})}{\text{Area}(B_p \cup B_{gt})}$

其中 $B_p$ 是预测边界框， $B_{gt}$ 是真实边界框。IoU 值介于 0 到 1 之间，1 表示完全重合，0 表示完全不重合。

IoU-based Losses (GIoU, DIoU, CIoU, SIoU, EIou)

IoU-based 损失函数直接以 IoU 或其改进形式作为损失项，能够更好地反映边界框的重叠程度，从而引导模型预测出更精确的边界框。

GIoU Loss (Generalized IoU): 解决了 IoU 在预测框与真实框不重叠时梯度为 0 的问题。GIoU 考虑了预测框和真实框的最小外接矩形 $C$ ，并引入了惩罚项：
$\text{GIoU} = \text{IoU} - \frac{\text{Area}(C \setminus (B_p \cup B_{gt}))}{\text{Area}(C)}$