集智书童 | YOLOv12-BoT-SORT-ReID 开源 | Strong-Baseline架构，无特征增强问鼎反无人机挑战赛-CSDN博客

本文链接：https://blog.csdn.net/csdn_xmj/article/details/147297292

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：YOLOv12-BoT-SORT-ReID 开源 | Strong-Baseline架构，无特征增强问鼎反无人机挑战赛

导读

检测和跟踪多个无人机（UAV）在热红外视频中的任务由于对比度低、环境噪声和目标尺寸小而具有内在的挑战性。本文提供了一种简单的方法来解决热红外视频中的多无人机跟踪问题，利用了检测和跟踪领域的最新进展。作者不是依赖于YOLOv5与DeepSORT流程，而是提出了一种基于YOLOv12和BoT-SORT的跟踪框架，并通过定制化的训练和推理策略进行了增强。作者按照第4届反无人机挑战赛的指标对Strong-Baseline进行了评估，并展示了具有竞争力的性能。

值得注意的是，作者没有使用对比度增强或时间信息融合来丰富无人机特征，从而实现了优异的结果，突显了Strong-Baseline作为多无人机跟踪任务的“强 Baseline ”。作者提供了实现细节、深入的实验分析和潜在改进的讨论。

代码：https://github.com/wish44165/YOLOv12-BoT-SORT-ReID

1. 引言

多无人机跟踪近年来已成为一项关键应用，这得益于硬件、检测模型和跟踪算法的显著进步。随着配备复杂视觉系统和先进控制动态的无人机不断增多，如[29]中所述，一系列基于无人机的产品被引入市场。然而，这些创新也带来了新的挑战，尤其是在跟踪无人机集群方面。由于安全担忧日益加剧以及未经授权的无人机带来的威胁不断上升，有效集群跟踪的需求变得日益迫切。为了解决这些挑战并推进跟踪和检测任务，已经开发了各种与无人机相关的数据集。这些数据集包括轨迹重建数据集，如[14, 21]中的数据集，它们提供了从单视角或多视角摄像机捕获的无人机轨迹，以及[3]中引入的基于轨迹的无人机数据集。此外，基于RGB的影像数据集，包括[20, 30, 32, 34]中的数据集，已被广泛使用。在这些数据集中，[13, 17]中基于热红外视频的无人机数据集，涵盖了单目标跟踪（SOT）和多目标跟踪（MOT）场景，受到了极大的关注，尤其是在主要的挑战活动中。这些数据集在提高无人机跟踪和检测能力方面发挥了关键作用。

热红外视频相较于传统的RGB图像具有优势，例如在低光和恶劣天气条件下的增强可见性，使其非常适合用于安全和监控应用。本文聚焦于利用热红外视频进行多无人机跟踪，利用其在RGB方法可能失效的复杂环境中的重要性。图1（a）展示了来自MOT训练集的具有不同背景的热红外帧，而图1（b）突出了轻微缺陷，如标注错误、冗余、遗漏标签和低质量帧，这些缺陷在数据集中所占比例极小，在训练过程中可以安全忽略。

此外，图2显示了训练集中边界框标注的裁剪图像块，说明了无人机的大小变化，从几个像素到个位数像素。作者通过利用最新的YOLOv12 [36]检测器和BoT-SORT [1]跟踪算法构建了一个完整的无人机跟踪工作流程，该工作流程的性能优于已建立的YOLOv5 [18]与DeepSORT [40]组合。作者还实施了一些策略以进一步提高多无人机跟踪性能。

作者的贡献如下：

1. 作者基于YOLOv12和BoT-SORT建立了一个多无人机跟踪工作流程，为基于热红外视频的多无人机跟踪任务设定了一个强大的 Baseline 。
2. 作者对各种试验调整进行了深入分析，例如输入图像大小和跟踪器缓冲区调整的影响，并从作者强大的 Baseline 出发，提出了对未来改进的必要考虑。

2. 相关工作

现有针对基于热红外视频的多无人机跟踪改进的视角可以分为标注和基准测试、空间信息增强、时序和运动建模、实时优化、统一框架以及基于检测的跟踪系统。由于高质量的标注对于鲁棒跟踪至关重要，先前的研究已经探讨了标注错误对目标检测的影响[19]，通过结合多假设跟踪（MHT）利用时序线索并减少误报[15]，以及引入基准测试来评估无人机数据集上的检测和跟踪方法[16]。空间信息增强技术，如[23]中提出的图像金字塔引导（IPG）模块，通过保留精细的空间细节来解决特征不平衡问题，即使在深度网络层也能实现准确的边界框回归和分类。

为进一步提高跟踪鲁棒性，时序和运动建模技术利用帧间相关性，增强连续性并减少碎片化[11, 12, 22, 42]。与此互补，实时优化策略在保持准确性的同时减少推理延迟，使得无人机跟踪在现实应用中变得高效[7, 26, 39, 41]。除此之外，统一框架将检测和跟踪集成到端到端解决方案中，简化了多无人机跟踪流程[44, 46]。此外，结合级联后处理模块的检测方法通过减轻误报并提高定位来提高跟踪精度[35]。尽管先前的工作对多无人机跟踪做出了重大贡献，但Strong-Baseline通过利用最新的检测器和跟踪器，为基于热红外视频的无人机跟踪设定了新的基准，并指导了多无人机跟踪任务的未来研究。

3. 研究方法

本节首先定义了问题范围，随后是数据分析和模型训练准备。接着，作者介绍了主要的检测模型YOLOv12和跟踪算法BoT-sORT，最后详细阐述了作者的训练和推理策略。

3.1 问题陈述

目标是以尽可能高的精度追踪无人机，评价标准详见第4.1节。挑战分为三个赛道，每个赛道对应不同的场景。赛道1和赛道2是单目标跟踪（SOT）任务，区别在于是否给出了无人机的初始位置。赛道3是一个多目标跟踪（MOT）任务，其中提供了无人机的初始位置。

3.2 数据分析与准备

在分析数据后，作者将其分割以准备模型训练。SOT和MOT任务中用于训练、验证和测试的帧数和边界框数量在表2中详细说明。具体来说，Track 1和Track 2使用YOLOv12与BoT-SORT，而Track 3采用YOLOv12与BoT-SORT-ReID。请注意，由于作者发现测试集为SOT任务提供的有限信息，因此一些数字放在括号中。括号中的值仅反映分割为训练集和验证集的数据。此外，对于BoT-SORT训练，1/10的数据主要用于训练ReID模块。这种方法为ReID模块的训练提供了更有效的途径，因为许多场景在视觉上相似。

3.3. 基于BoT-SORT-ReID的YOLOv12在多目标跟踪中的应用

基于[3]中提供的全面评估结果，该评估在具有RGB视频的无人机数据集上对YOLO系列检测器进行了基准测试，由于YOLOv12在性能上的优越性，因此被选用于所有赛道。YOLOv12[36]代表了YOLO系列目标检测器的最新进展，同时引入了关键创新以提升准确性和效率。在其核心部分，YOLOv12采用了残差高效层聚合网络（R-ELAN），该网络解决了与注意力机制相关的优化挑战，尤其是在大规模模型中。基于ELAN[37]，R-ELAN引入了具有自适应缩放的块级残差设计以及精细的特征聚合策略，共同促进了有效的特征重用和稳定的梯度传播，同时最小化了开销。此外，YOLOv12通过结合FlashAttention[5, 6]和空间感知模块，整合了一个以注意力为中心的架构，从而在保持低延迟的同时增强了上下文建模。引入7x7大核可分离卷积扩展了感受野，并加强了目标定位，特别是对于小型和中型目标。该架构针对现代GPU内存层次结构进行了优化，提供了改进的计算效率和减少的推理时间，而不牺牲检测性能。这些创新使得YOLOv12能够在速度和准确性之间取得平衡，使其非常适合实时应用、大规模检测任务和跟踪流程。

BoT-SORT [1] 结合了卡尔曼滤波 [40] 和相机运动补偿（CMC）以稳定动态条件下的跟踪。CMC通过仿射变换进行全局运动补偿（GMC），使用图像关键点 [33] 通过金字塔Lucas-Kanade光流 [2] 跟踪，并采用异常值拒绝。通过RANSAC [8] 估计的仿射变换补偿背景运动，同时通过调整卡尔曼滤波状态向量保持目标轨迹的稳定性。BoT-SORT-ReID通过整合来自四个不同ReID架构的外观线索来增强多目标跟踪。Bag of Tricks（Bagtricks） Baseline 采用具有批量归一化的ResNet-50主干网络，以及Triplet Loss和交叉熵损失进行鲁棒特征提取。注意力广义平均池化与加权Triplet Loss（AGW）[43]通过引入非局部模块和广义平均池化来提高特征表示。Strong Baseline（SBS）[25]通过广义平均池化、圆形softmax损失和High-Level数据增强策略增强了鲁棒性。Multiple Granularity Network（MGN）[38]通过引入多个特征分支来捕获不同空间尺度上的细粒度表示，从而扩展了SBS。此外，借鉴ByteTrack [45]，采用20帧间隔的线性tracklet插值，以减轻遮挡或标注错误导致的漏检。

3.4 训练与推理策略

为了减少YOLOv12检测器的训练时间，作者采用两阶段训练策略。首先，作者在SOT数据集上从头开始训练YOLOv12模型（n, s, m, 1, x），该数据集被分为训练、验证和测试子集，具体细节如表2所示。随后，从该预训练权重开始，作者在MOT数据集或更大输入图像分辨率上对这些模型进行微调。这种分阶段的方法加速了收敛，减少了整体训练时间，并使模型在仅几个epoch内就能达到有竞争力的平均精度（AP）。对于ReID模块，作者主要使用数据集的缩减子集来提高训练效率，因为使用整个数据集进行训练将非常耗时。

推理流程如图3所示。整体流程遵循原始的BoT-SORT方案。然而，作者对输出进行了修改，对于Track 1和Track 2同时报告在线目标和丢失目标，同时保留Track 3的原始输出格式。作者没有使用线性轨迹插值，因为由于相机运动或快速移动的无人机，ID切换频繁发生，使得插值对于恢复丢失的检测无效。相反，对于SOT任务，作者采用了一种基于每个帧最多包含一个无人机的假设的策略，遵循以下优先级顺序：（1）报告在线目标中置信度分数最高的无人机，（2）如果没有在线目标可用，继续报告后续跟踪器缓冲帧中的上一个ID作为丢失目标，（3）如果没有上一个ID可用，报告最后已知的位置，直到检测到新的在线目标。这种策略利用卡尔曼滤波器的预测，根据先前的位置和速度准确估计无人机的位置，显著提高了SOT任务的评估指标。然而，由于在线目标和丢失目标之间频繁的重叠和ID切换，这种策略对于MOT任务不可行，这会导致结果不佳。因此，在这种情况下，作者保留了Track 3的原始输出。

4. 实验结果

实验在两个平台上进行：第一个平台是一个配备Intel Core i7-12650H CPU、NVIDIA RTX 4050 GPU和16 GB RAM的系统；第二个平台是一个高性能计算（HPC）系统[27]，配备了NVIDIA H100 GPU和80 GB内存。除非内容或表中另有说明，所有模型均使用默认设置（例如，图像输入大小为640，跟踪缓冲区为30帧）进行训练。本节首先概述了三个赛道的评估指标，然后展示了SOT和MOT任务的结果。接着，作者展示了排行榜排名，并讨论了关键考虑因素以及可能进一步改进无人机跟踪的潜在图像增强技术。

4.1 评估指标

在三个竞赛赛道中使用了两个评估指标。第一个指标适用于赛道1和赛道2，其中跟踪精度定义为：

4.2 轨道1和轨道2的评估结果

作者将Track 1和Track 2的评估结果一起呈现，因为它们都是SOT任务，唯一的区别在于初始无人机位置的存在。根据表3所示，从两条轨迹中各选取了八个有意义的试验。试验1和2作为消融研究，用于评估BoT-SORT的影响。结果显示性能显著提升：Track 1的得分从0.0786增加到0.5529，而在Track 2中，得分从0.0992上升到0.3106，这仅仅是在YOLOv12n检测器之后添加了BoT-SORT。试验2至6评估了不同的检测器模型大小（n, s, m, 1, x），在两条轨迹中，YOLOv12l模型均取得了最高得分。试验7考察了扩展到300个epoch的训练效果，与100个epoch的训练相比，性能有所下降，这可能是由于过拟合导致的。最后，每个轨迹的试验8展示了作者提交的最高得分，通过将Track 1的最小框面积阈值从10调整为4，Track 2从10调整为1，以更好地捕捉可能因默认设置而遗漏的小型无人机。

4.3 轨道3的评估结果

Track 3的评估结果可以分为四个关键观察点。如图4所示，Group 1展示了使用不同YOLOv12模型大小的结果，揭示出尽管YOLOv12n是最小的模型，但它却实现了最佳性能。Group 2考察了不同轨迹缓冲区大小的影响，观察到使用60个缓冲帧时得分最高，表明这种配置优化了ID重关联过程。Group 3研究了不同图像输入大小的影响。与默认的640输入大小相比，1280和1600输入大小均显著提升了性能。Group 4讨论了涉及不同ReID模块的试验。Trial 13使用了完整的ReID数据集，而Trial 14至19则是在缩减的ReID数据集上训练。该组还评估了不同配置的影响，包括ReID模块结构、度量学习策略和训练轮数的改变。从这些结果中，作者得出以下结论：（1）Strong Baseline Series中的ResNet-50作为ReID模块的主干优于ResNet-101，使用了实例批归一化；（2）将Triplet Loss替换为CircleLoss进行度量学习可以提高性能；（3）随着训练轮数的增加，ReID模块的训练往往会过拟合。

基于各组所有试验，作者得出以下关于与试验1相比的得分变化的结论：（1）模型大小对性能的影响约为0.001，（2）轨迹缓冲区大小对得分的影響約為0.0001，（3）图像输入大小对得分的影响最为显著，得分增加约为0.1，（4）ReID模块的影响约为0.01。利用这些见解，得分最高的试验20采用了以下配置：YOLOv12n，图像大小为1600，训练11个epoch，结合BoT-SORT-SBS-S50，配备CircleLoss，使用AdamW [24]优化，训练17个epoch。

4.4 领航员排行榜结果

基于三个赛道上的所有试验，如表3和表4所示，作者在表5中报告了排行榜结果，其中包含每个赛道的三个最高得分、作者的提交得分和官方 Baseline 得分。虽然作者的得分与前三名之间仍存在差距，分别为赛道1的0.1332、赛道2的0.1971和赛道3的0.0502，但作者的性能相较于 Baseline 有显著提升。具体来说，作者在赛道1和赛道3上实现了 Baseline 得分的约两倍增长，在赛道2上实现了近五倍提升。值得注意的是，这些结果是在没有采用图像增强技术或利用训练过程中的时间信息的情况下获得的。将作者强大的 Baseline 中这样的先进技术整合进来，可以显著提高性能，并使达到前三名位置变得高度可行。

4.5 讨论与增强技术

评估结果揭示了几个关键见解。首先，由于作者的数据划分策略，出现了过拟合现象。为了最大化场景多样性，作者没有根据固定摄像机设置或背景类型（例如，天空或建筑）等属性对视频进行分类。相反，作者直接将数据集划分为训练集、验证集和测试集，偶尔允许同一视频的帧在不同划分中出现。这很可能是导致过拟合的原因，如局部测试中AP分数差异所示。其次，准确地将提供的初始物体位置缩放到与训练和推理中使用的分辨率相匹配至关重要，因为不匹配可能会误导跟踪器并降低后续预测。第三，在参数调整无法提高准确度时，提高图像分辨率是突破性能 Bottleneck 的关键。例如，从640分辨率扩展到1280分辨率，分数显著提高了约0.1。然而，进一步的提升带来的收益逐渐减少，因为以2560像素训练7个epoch的得分为0.7072，而以3840像素训练1个epoch的得分为0.7098，而两者相比在1280像素训练时所需的计算成本显著更高。第四，在YOLOv12和BoT-SORT-ReID推理过程中，内存消耗随时间累积，导致程序崩溃。

为了解决这个问题，作者基于每个文件夹执行推理，而不是在一次运行中处理所有序列。最后，准确初始物体位置和没有准确初始物体位置的运行之间存在明显的性能差距，这体现在Track 1和Track 2之间的性能差异上。这强调了及时、可靠地估计初始位置以进一步提高性能的重要性。

此外，如前所述，虽然Strong-Baseline提供了一个强大的 Baseline ，但在没有进一步精炼的情况下，它仍然不足以实现顶级性能。图4（a）展示了Strong-Baseline在各种场景下的预测结果，而图4（b）突出了几个关键失败案例：（1）重叠的无人机经常导致ID切换，（2）区分无人机和飞行生物仍然困难，模型在短暂的遮挡后经常重新分配新的ID给无人机，（3）复杂背景导致检测失败和跟踪失败，（4）在杂乱环境中，微型无人机提供的信息很少或没有价值，使得检测非常不可靠。最后一行的对应 Heatmap 说明了模型在这些困难条件下无法有效感知无人机。这些局限性强调了图像增强技术在进一步提高性能中的重要性。

图5展示了几种潜在图像增强方法。从左到右：（1）原始热红外帧，（2）基于Sobel边缘锐化的增强[10]，比原始图像更清晰地突出边缘，（3）对比度限制自适应直方图均衡化（CLAHE）[28]，提高了对比度，（4）ReynoldsFlow [4]，一种基于雷诺传输定理[31]的时间增强方法，雷诺传输定理是莱布尼茨积分法则[9]的三维推广，为移动无人机提供了增强的外观。

5. 结论

本文提出了一种基于热红外视频的多无人机跟踪任务强 Baseline 。通过将YOLOv12与BoT-SORT集成，Strong-Baseline在 Baseline 之上有了显著提升。在实验结果中讨论的训练和推理过程中的额外策略表明，Strong-Baseline有潜力在Track 3性能中排名前三。作者还确定了与初始试验相比影响性能的关键因素：模型大小贡献约0.003，跟踪缓冲区大小影响分数约0.0001，图像输入大小提供了最显著的影响，分数增加约0.1，ReID模块增加约0.01。虽然Strong-Baseline直观且直接，但作者提出了几种潜在的技术来进一步提高准确性。

总体而言，Strong-Baseline建立了一个强大的 Baseline ，主要由最新的YOLOv12检测器和先进的BoT-SORT跟踪算法驱动，为无人机编队跟踪领域的最新进展提供了一个强有力的起点。