Bidirectional Feature Pyramid Network with Recurrent Attention Residual Modules for Shadow Detection

最新推荐文章于 2024-04-06 08:03:53 发布

原我归来是少年

最新推荐文章于 2024-04-06 08:03:53 发布

阅读量2.1k

点赞数 2

分类专栏：论文笔记

本文链接：https://blog.csdn.net/DumpDoctorWang/article/details/103425658

版权

论文笔记专栏收录该内容

10 篇文章

订阅专栏

提出一种新的网络模型，通过递归注意力残差模块和双向特征金字塔网络，有效检测图像中的阴影，性能超越现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bidirectional Feature Pyramid Network with Recurrent Attention Residual Modules for Shadow Detection

基本信息

ECCV 2018
http://openaccess.thecvf.com/content_ECCV_2018/papers/Lei_Zhu_Bi-directional_Feature_Pyramid_ECCV_2018_paper.pdf
https://github.com/zijundeng/BDRAR

值得学习的地方

摘要

本文提出了一种通过探索和组合深层卷积神经网络（CNN）的深层全局上下文和浅层局部上下文来检测阴影的网络。我们的网络设计有两项技术贡献。首先，我们制定循环注意残差（RAR）模块，以在两个相邻的CNN层中组合上下文，并学习注意图以选择残差，然后细化上下文特征。其次，我们开发了一个双向特征金字塔网络（BFPN），通过在网络中部署两个系列的RAR模块来迭代组合和细化上下文特征，以聚合跨越不同CNN层的阴影上下文：一个系列以从深层到浅层细化上下文特征，以及从浅层到深层的另一个系列。因此，我们可以更好地抑制错误检测并同时增强阴影细节。我们在两个常见的阴影检测基准数据集上评估我们的网络：SBU和UCF。实验结果表明，对于平衡误差率，我们的网络性能优于现有方法，其SBU降低了34.88％，UCF降低了34.57％。

1 Introduction

由于场景中关联对象遮挡的光线，阴影是比周围环境接收较少光照的区域。为了检测图像中的阴影，早期的工作使用启发式先验[1,2]开发了物理模型，或者采用了基于手工特征的机器学习方法。但是，图像先验和手工制作的功能对于提取高级语义无效。

最近，基于卷积神经网络（CNN）的方法[3-7]在各种阴影检测基准上显示出明显的性能，例如[4，8]。成功的关键因素是CNN能够学习阴影图像中的全局空间上下文，如最近的工作[5-7]所示。

为了进一步探索空间上下文并提高阴影检测性能，它需要了解有关场景中对象和照明条件的全局上下文，有关阴影形状细节的局部上下文以及各种上下文的集成以不同比例提取。这驱使我们探索不同CNN层上的阴影上下文，其中浅层有助于显示局部上下文，而深层则由于具有较大的接收场而有助于揭示全局上下文。

在这项工作中，我们设计了一个双向特征金字塔网络（BFPN），它扩展了特征金字塔网络体系结构[9]。特别是，我们旨在利用深层和浅层的空间环境，并迭代地整合环境，以最大化阴影检测性能。详细地说，我们在这项工作中具有以下技术贡献：

首先，我们开发循环注意力残差模块或简称RAR模块，以组合和处理两个相邻CNN层中的空间环境。在模块内部，网络会学习并预测注意力图，以选择残差并优化上下文特征。
其次，我们以RAR模块为基础，设计了双向特征金字塔网络（BFPN）。在BFPN内部，我们首先应用卷积神经网络（CNN）生成一组具有不同分辨率的特征图（即空间上下文），然后使用两个RAR模块系列在CNN层上迭代地集成空间上下文：从深层到浅层的一系列RAR模块，以及从浅层到深层的另一系列。最后，通过注意力机制进一步整合来自两个方向的预测结果。

为了演示我们网络的性能，我们在两个通用基准（即SBU [4]和UCF [8]）上对其进行了评估，并将其性能与几种专为阴影检测，阴影去除，显着性检测和语义分割。结果表明，我们的模型明显优于最佳方法，在平衡误差率方面，SBU降低了34.88％，UCF降低了34.57％。我们方法的代码和模型可在https://github.com/zijundeng/BDRAR获得。

2 Related Work

自然图像中的阴影已被用作各种计算机视觉问题的提示，以提取场景几何形状[10,11]，光方向[12]以及相机位置和参数[13]。另一方面，阴影也有益于各种高级图像理解任务，例如图像分割[14]，对象检测[15]和对象跟踪[16]。

在文献中，已经提出了许多单图像阴影检测方法。早期的作品[1,2,17]专注于照明模型和颜色信息以检测输入中的阴影，但对于宽动态范围图像[5,18]效果很好。通过从具有带注释的地面真相的图像中学习阴影属性，数据驱动统计学习是用于阴影检测的另一种流行策略。这些方法通常首先设计一些手工制作的特征[8,18-21]，然后使用一些分类器[8,18-21]进行阴影检测。尽管在阴影检测方面显示出性能上的改进，但由于手工制作的功能的区分能力有限，它们在复杂情况下经常会失败。

与基于手工特征的传统方法相比，基于深度卷积神经网络（CNN）的方法刷新了许多计算机视觉任务[6,7,9,22,23]，包括阴影检测。例如，Khan等 [3]是第一个使用深度学习自动学习用于阴影检测的功能的方法，具有重大改进。他们训练了一个CNN来检测阴影区域，并训练了另一个CNN来检测阴影边界，然后将预测结果提供给条件随机场（CRF），以将图像像素分类为阴影/非阴影。后来，提出了一个堆叠的CNN [4]，通过考虑图像的全局预测和图像块的阴影预测来检测阴影。他们首先训练了一个完整的卷积网络，以获得事先的图像级阴影，然后将其与本地图像补丁组合在一起，以训练基于补丁的CNN进行最终的阴影图预测。

最近，通过获取由手工特征生成的阴影先验图，然后应用色块级CNN来计算输入图像的改进的阴影概率图，从而引入了快速深阴影检测网络[24]。通过在输入RGB图像上建立条件生成器并学习预测相应的阴影图，开发了基于对抗网络的阴影检测器，称为scGAN [5]。当检测给定图像的阴影时，它们将针对大量多尺度作物的预测阴影掩码进行组合，以进行最终的阴影掩码预测。 Hu等人的最新著作 [6,7]提出了一个带有方向感知空间上下文模块的深度网络来分析全局语义。

最新技术[5-7]中的深层模型主要强调推断阴影检测全局上下文的重要性。与这些方法相比，我们建议通过充分利用CNN不同层中的全局和局部上下文来开发网络来检测阴影。结果表明，就两个广泛使用的基准数据集的BER值而言，我们的方法明显优于[5-7]。

3 Methodology

图1展示了整个阴影检测网络的工作流程，该网络采用了两个RAR模块系列（参见图2（d））来充分利用卷积神经网络两个相邻层的全局上下文和局部上下文。我们的网络将单个图像作为输入，并以端到端的方式输出阴影检测结果。首先，它利用卷积神经网络（CNN）提取具有不同分辨率的特征图。浅层的特征图在局部区域发现精细的阴影细节信息，而深层的特征图捕获整个图像的阴影语义信息[25]。然后，我们开发RAR模块，通过将两个相邻的特征图作为输入来逐步学习CNN每一层的特征，以学习注意力图并选择残差来优化上下文特征。我们将多个RAR模块嵌入到双向特征金字塔网络（BFPN）中，该网络使用两个方向性路径来收集不同层的上下文信息：一个路径是从浅层到深层，而另一个路径是相反的方向。最后，我们从两个定向路径的最后一层的特征预测分数图，然后以注意的方式融合这两个分数图以生成最终的阴影检测结果。

在这里插入图片描述

图1：整个阴影检测网络的示意图。彩色效果最佳。

在以下小节中，我们首先详细介绍RAR模块如何完善CNN每一层的特征图，然后详细介绍如何将RAR模块嵌入到带有RAR的阴影检测网络（称为双向特征金字塔网络（BFPN），简称BDRAR）中，最后介绍了我们网络的训练和测试策略。

3.1 Recurrent Attention Residual Module

我们方法的主要问题之一是通过组合CNN的两个相邻层上的上下文特征来优化用于阴影检测的每一层的上下文特征。一种常见的方法是使用类似于原始FPN [9]的逐元素加法（参见图2（a））合并这两个相邻特征。它对低分辨率特征图进行上采样，然后将其与高分辨率特征图相加。但是，在两个输入上下文特征上按元素进行加法仅会合并不同图层上的特征，这是因为它们在高分辨率特征图中抑制非阴影细节的能力有限，并将非阴影区域引入结果中。为了减轻这个问题，我们引入了残差学习技术[26,27]，通过学习输入特征的残差来改善特征细化。如图2（b）所示，首先将两个输入特征图的串联作为输入，然后学习生成残差图以通过逐元素加法来细化原始特征。学习残差对应物（参见图2（b））而不是直接添加特征图（参见图2（a））使特征细化任务更加容易，因为它只需要从不同特征处学习补充信息即可。图层并可以保留原始特征。

在这里插入图片描述

图2：在两个层上合并特征（ $F_i$ 和 $F_j$ ）以进行特征细化（输出细化特征： $F_{bi}$ ）的不同模块的示意图。

为了进一步提高特征细化的性能，我们开发了一个递归注意残差（RAR）模块（请参见图2（d）），该模块周期性地应用一个注意残差（AR）模块（请参见图2（c））来计算细化的上下文特征。 $\widehat{F}_{res}$ 表示通过使用图2（b）的基于残差学习的模块产生的精炼输出特征。我们的AR模块通过循环学习注意力图以从 $\widehat{F}_{res}$ 选择有用的信息作为残差（由残差添加为原始残差作为输出精炼特征）来提高特征增强性能。具体来说，AR模块通过将输入的两个相邻上下文特征进行串联开始，然后利用Attention模块（请参见图3（a））从串联的特征中生成权重（或注意）图。注意图用作特征选择器以增强良好的特征并抑制噪声。然后，将学习的注意力图与乘以 $\widehat{F}_{res}$ ，然后使用逐元素加法将其与 $\widehat{F}_{res}$ 相加，从而获得AR模块的输出细化特征，如图3（c）所示。因此，我们的RAR模块通过循环使用AR模块来计算精炼的上下文特征，其中在前一个循环步骤中输出的精炼特征用作后续AR模块的输入，并且共享不同AR模块的参数以降低过拟合的风险。

在数学上，我们的RAR计算第 $i$ 层的细化特征（表示为 $F_i^{u+1}$ ）为：

$F_i^{u+1} = (1 + A(Cat(F_i^u, F_j))) * [\Phi (Cat(F_i^u, F_j) + F_j)] \tag 1$

其中u = 1,2，…，U; U是循环步骤数（recurrent steps）； $F_I^u$ 是经过u个循环步骤后的精细特征， $F_i^1 = F_i$ ，这是CNN层 $i$ 的上下文特征； $F_j$ 是CNN层 $j$ 的上下文特征； $C a t$ 表示对 $F_i$ 和 $F_j$ 的串联操作； $A(Cat(F_i^u, F_j))$ 是使用注意力机制获得的权重图（有关详细信息，请参见下面的段落）； Φ表示残差函数。

RAR中的注意力模块（Attention Block）。根据用于图像分类的注意力机制[23]，我们开发了一个注意力模块（参见图3（a）），以从级联特征（等式（1）的 $Cat(F_i^u, F_j)$ 学习权重图。有三个残差块，其中每个块具有11卷积层，33空洞卷积层和1*1卷积层。之后，我们通过对从三个残差块学习的特征图（表示为H）使用Sigmoid函数来计算权重（注意）图：

$\frac{1}{1+\exp(-H(p,q,c))} \tag2$

其中$a(p, q, c) $是学习的权重图的第 c 个通道的空间位置（ p ， q ）处的权重，而$ H(p, q, c) $是空间位置的特征H的第c个通道（p，q）处的值。

在这里插入图片描述

图3：（a）RAR中注意模块的示意图；（b）最终阴影检测图的注意融合细节；见第二节 3.2。

3.2 Our Network

原始FPN [9]会以自顶向下的方式迭代合并要素，直到到达分辨率最高的最后一层。我们认为，这种单一的自上而下的路径不足以捕获跨越CNN不同层的阴影上下文信息。为了缓解这个问题，我们设计了一种双向机制来集成不同层的上下文信息：一种（自上而下）的途径是将特征从低分辨率层集成到高分辨率层，而另一种（自下而上）的途径则是将高分辨率层整合到分辨率图层到低分辨率图层，我们使用RAR模块（请参阅第3.1节）通过合并两个相邻特征来细化每一层的特征。之后，我们根据[28]的启发，使用注意力机制（请参见图3（b）），通过融合来自最后一层中经过细化的特征（表示为 $F_H$ ）的阴影预测来生成最终的阴影检测图。自上而下的方向以及自下而上方向的最后一层的要素（表示为 $F_L$ ）。如图3（b）所示，我们首先通过使用1×1卷积层从精化特征（ $F_H$ 和 $F_L$ ）生成两个阴影检测图。然后，我们在 $F_H$ 和 $F_L$ 的级联上执行两个卷积层（3×3和1×1），并使用Sigmoid函数生成注意力图，将其与阴影检测图相乘以生成最终的阴影检测结果。

设计的双向特征金字塔网络（BFPN）可以有效地使用两条方向路径中的特征互补信息进行阴影检测。请参考第二节中的消融研究。 4.4用于在两个阴影检测基准数据集上对原始FPN和我们的BFRN进行比较。

3.3 Training and Testing Strategies

我们使用PyTorch实现我们的网络，并采用ResNeXt101 [29]作为用于特征提取的基本卷积神经网络。

损失函数。 如图1所示，我们的网络利用深度监督机制[30]向两个双向路径每一层的特征施加监督信号，以促进有用信息向阴影区域的传播。在训练过程中，二进制交叉熵损失用于网络的每个输出，总损失是所有输出得分图的损失之和。

训练参数。 为了加快训练过程并减少过度拟合的风险，我们使用ResNeXt [29]初始化了基本卷积神经网络的参数，该参数已经在ImageNet上进行了很好的图像分类任务训练。其他参数由随机噪声初始化。具有0.9的动量和0.0005的权重衰减的随机梯度下降（SGD）用于优化整个网络，迭代3000次。我们通过poly策略[31]调整学习率，基本学习率是0.005，参数power是0.9。我们在SBU训练集上训练网络，其中包含4089张图像。此外，我们通过随机水平翻转来增强训练集。我们将所有图像调整为相同的分辨率（416×416）。我们的网络是在单个GTX 1080Ti GPU上进行训练的，最小批量为8个，整个训练过程仅需40分钟左右。

推理。 在测试过程中，我们首先将输入图像调整为与训练阶段使用的分辨率相同的分辨率。然后，我们将注意力融合模块的输出（见图3（b））作为用于阴影检测的整个网络的最终输出。最后，我们使用完全连接的条件随机场（CRF）[32]，通过优化网络输出上每个像素的空间相干性来进一步增强检测结果。

4 Experimental Results

4.1 Datasets and Evaluation Metrics

基准数据集。 我们在两个广泛使用的影子基准数据集：SBU [4]和UCF [8]上评估所提出网络的有效性。两个基准数据集中的每个图像都有其相应的带注释的二进制阴影标记。 SBU数据集是最大的可公开获得注释的阴影数据集，其中包含4089个训练图像和638个测试图像，而UCF数据集由145个训练图像和76个测试图像组成。在我们的实验中，我们使用SBU训练集训练阴影检测网络，并在SBU和UCF的测试集上评估我们的方法和竞争对手。我们的网络需要0.056s来处理416×416分辨率的图像。

评估指标我们采用一种常用的指标，即平衡差错率（BER），以定量评估阴影检测性能。有关BER的定义，请参阅本文[6]。注意，较低的BER值表示性能更好。

4.2 Comparison with the State-of-the-art Shadow Detectors

我们将我们的方法与最近的五个阴影检测器进行了比较：DSC [6,7]，scGAN [5]，stacked-CNN[4]，patched-CNN [24]和Unary-Pairwise[19]。为了进行公平的比较，我们可以直接从作者那里获得其他阴影检测器的结果，也可以使用作者提供的带有建议参数设置的公共实现来获得。

表1报告了不同方法的定量结果。从结果中我们可以发现，基于深度学习的方法[4,6,7,24]通常比手工制作的检测器[19]具有更好的阴影检测结果，因为它们可以从带注释的训练集中学习到更强大的阴影检测功能。 DSC [6,7]通过分析方向上下文来理解全局图像语义以推断出阴影，从而比其他现有的深度学习模型[4,5,24]拥有更高的性能。与DSC相比，就BER而言，我们的方法在SBU上减少了34.88％，在UCF上减少了34.57％，这表明我们的方法（BDRAR）在两个基准数据集上均优于其他方法。尽管我们的阴影检测网络在SBU训练集上进行了训练[4]，但它在UCF数据集上仍然具有优于其他阴影检测网络的性能，这证明了我们网络的泛化能力。

在这里插入图片描述

表1：将我们的方法（BDRAR）与用于阴影检测的最新技术（DSC [6,7]，scGAN [5]，stacked-CNN [4]，patched-CNN [24]和UnaryPairwise [19]进行比较 ]），阴影去除（DeshadowNet [33]），显着性检测（SRM [34]和Amulet [35]）以及语义分割（PSPNet [36]）。

在图4和5，我们在不同的输入图像上提供视觉比较结果。从结果可以发现，我们的方法（图4和5的第三列）可以有效地定位各种背景下的阴影并避免误报，因此在所有阴影检测器中具有最佳性能。此外，对于较大阴影区域中的高对比度对象，我们的方法仍会将其识别为阴影；参见图5的最后两行。

在这里插入图片描述

图4：我们的方法和其他方法（第4至第10列）生成的阴影图与第2列中显示的地面真实情况的视觉比较。注意，“ stCNN”和“ paCNN”分别代表“ stacked-CNN”和“ patched-CNN”。

在这里插入图片描述

图5：我们的方法和其他方法（第4至第10列）生成的阴影图与第2列中显示的地面真实情况的视觉比较。注意，“ stCNN”和“ paCNN”分别代表“ stacked-CNN”和“ patched-CNN”。

4.3 Comparison with Methods of Shadow Removal, Saliency Detection and Semantic Segmentation

通过使用带注释的阴影数据集，可以重新训练用于阴影去除，显着性检测和语义图像分割的深层网络，以进行阴影检测。为了进一步评估我们方法的有效性，通过将我们的方法与最近的阴影去除模型DeshadowNet [33]，两个最近的深度显着性检测模型SRM [34]和Amulet [35]进行比较，进行了另一项实验。最近的语义分割模型，即PSPNet [36]。

由于我们无法获得DeshadowNet的原始代码[33]，因此，我们会认真遵循DeshadowNet的已发表论文，以尽最大的努力实施该代码，并在SBU训练集上训练阴影检测模型。对于其他三种方法，我们从它们的项目网页上获取这些方法的代码，然后在SBU训练集中对其模型进行重新训练。为了公平地比较，我们会尽力调整其训练参数并选择最佳的阴影检测结果。表1中的最后四行报告了这些方法的BER值。尽管它们具有比某些现有阴影检测器更好的BER值，但我们的方法仍在两个基准数据集上展示了优于它们的阴影检测性能。另一方面，图3和4中的最后三列包括了第一列和第二列。图4和5展示了预测的阴影图，表明我们的网络可以比其他方法始终如一地产生更好的阴影检测图。

4.4 Ablation Analysis

我们进行实验以评估FPN中的双向功能集成以及RAR模块设计的有效性。基本模型是原始的“ FPN [9]”，它仅使用自上而下的方向集成功能并删除了图1中所示的所有RAR模块。第二种模型（表示为“ BD”）类似于“ FPN”，但它使用我们的双向路径来合并CNN不同层上的要素。第三种模型（表示为“ RAR”）是仅带有RAR模块的“ FPN”。第四个模型（表示为“ BDR”）用基于残差学习的模块替换了我们网络中的所有RAR模块（请参见图2（b）），而第五个模型（表示为“ BDAR”）用注意残差学习模块（参见图2（c）），这意味着该模型是通过从RAR模块中删除递归机制而构建的。最后一个模型（表示为“ BDRAR w/o sw”）与我们的BDRAR具有相似的结构，但是在我们的RAR模块的每个循环步骤中，它使用独立的权重。

表2总结了两个基准数据集上比较的BER值。从结果可以看出，“用双向路径替代FPN的单一自上而下路径”和“采用RAR模块”都可以带来明显的改善。与我们的基于残差学习的模块（见图2（b））和注意力残差模块（见图2（c））的网络结果相比，我们的RAR模块（见图2（d））具有更好的性能关于阴影检测，因为它可以反复学习一组注意力权重以选择良好的残差特征以细化集成特征，如表2所示。此外，我们提供了可视化分析以评估RAR和双向特征集成如何通过进行实验来做出贡献通过将我们的方法与“ FPN”，“ BD”和“ RAR”三个模型进行比较。图6显示了两个输入图像的比较，表明RAR和BD可以检测更多阴影区域，如图6（ d-f）。更重要的是，我们的方法具有RAR和双向集成功能，可以产生最佳性能，而且我们预测的阴影贴图与地面实况（GT）更相似。最后，我们的方法也优于“ BDRAR w/o sw”，表明在RAR模块中共享权重可以减少网络的学习参数，从而获得更好的阴影检测结果。

在这里插入图片描述

表2：消融分析。我们使用SBU训练集训练所有网络，并使用SBU测试集[4]和UCF测试集[8]对其进行测试。

在这里插入图片描述

图6：将我们的方法（c）和其他三个模型（d）-（f）生成的阴影图与（b）中的地面真实情况（表示为“ GT”）进行比较。

我们的RAR模块（请参见图2（d））经常使用AR模块（请参见图2（c））通过合并两个相邻特征来细化每一层的特征。因此，配置网络的基本问题是我们在RAR模块中使用了多少个重复步骤（recurrent steps）。我们采用以RAR模块为基准（BDAR）的网络，该网络只有一个重复步骤（请参见表2）；我们通过使用不同轮次重复步骤（AR模块的次数；请参见RAR中的图2（c））修改网络来进行比较实验，表3报告了结果。如表3所示，我们可以发现在RAR模块中具有两个重复步骤可以在阴影检测上获得最佳性能。与仅一个AR模块相比，具有两轮AR模型的网络可以通过进一步集成相邻特征来提高每一层的精细特征的质量。但是，当我们的RAR中有三轮AR模块时，它大大增加了我们网络的复杂性，从而使网络训练更加困难。

在这里插入图片描述

表3：具有不同重复步骤的RAR模块

4.5 More Shadow Detection Results

在图7中，我们显示了更多的阴影检测结果：（a）低对比度阴影边界；（b）黑色背景的未连接阴影；（c）多个人类物体；（d）微小且不规则的阴影。从结果可以看出，我们的方法仍然可以很好地检测到这些阴影。请注意，我们的方法也有其局限性，并且在某些极端情况下往往会失败，例如柔和的阴影（请参见图8（顶部））和细节不明显的阴影（请参见图8（底部））。

在这里插入图片描述

图7：我们的网络的其他结果。

4.6 Saliency Detection

我们的深度模型具有处理其他视觉任务的潜力。这里以显着性检测为例。为了评估深度模型的显着性检测性能，我们首先在“ MSRA10k”上对模型进行了重新训练，该模型是用于显着性对象检测的广泛使用的数据集，然后在四个广泛使用的基准数据集上测试了该模型 ECSSD，HKU-IS，PASCAL-S和DUT-OMRON；有关这些数据集的详细信息，请参阅[37,38]。此外，我们使用两个通用指标（Fβ和MAE；有关定义，请参见[37]）进行不同显着性检测器之间的定量比较。表4显示了我们的模型与几个最新的显着性检测器之间的定量比较。从表中可以看出，就Fβ和MAE而言，我们的模型在几乎所有四个基准上均表现出最佳性能，这表明我们的模型可以预测更准确的显着性图。

在这里插入图片描述

表4：与显着性检测的最新方法的比较。

5 Conclusion

本文提出了一种用于单图像阴影检测的新型网络。提出了两种新技术，即递归注意残差（RAR）模块和双向特征金字塔网络（BFPN），以全面探索在卷积神经网络（CNN）的不同层中编码的全局和局部上下文信息。 RAR模块通过学习注意力权重以递归的方式选择残差，为相邻层的上下文特征提出了一种新颖的特征细化策略，而BFPN在两个方向上聚集了不同层的阴影上下文特征，并且可以增强阴影边界以及抑制非阴影区域。最终，我们的网络在两个基准数据集上实现了最先进的性能，并且大大优于其他方法。
在这里插入图片描述

图8：我们网络的失败案例。