SECOND: Sparsely Embedded Convolutional Detection
Abstract
问题:推理速度慢和方向估计性能低。
- 我们研究了用于此类网络的改进稀疏卷积方法
- 引入了一种新形式的角度损失回归来提高方向估计性能
- 一种新的数据增强方法,可以提高收敛速度和性能
Introduction
为基于 LiDAR 的检测引入了空间稀疏卷积网络,用于在将 3D 数据下采样为类似于 2D 图像数据的东西之前从 z 轴提取信息。
使用点云数据的另一个优点是,通过对对象上的指定点应用直接变换,可以很容易地缩放、旋转和移动对象。SECOND 结合了一种基于此功能的新型数据增强形式。生成包含对象属性和相关点云数据的地面实况数据库。然后在训练期间将从该数据库中采样的对象引入到点云中。这种方法可以大大提高我们网络的收敛速度和最终性能。
我们还引入了一个辅助方向分类器来识别物体的方向。
contributions
- 使用了稀疏卷积
- 改进了稀疏卷积
- 提出了一种新颖的角度损失回归方法
- 引入了一种新的数据增强方法
Related Work
基于融合的方法通常运行缓慢,因为它们需要处理大量的图像输入。对具有 LiDAR 功能的时间同步和校准相机的额外要求限制了可以使用此类方法的环境并降低了它们的鲁棒性。相比之下,我们的方法可以仅使用 LiDAR 数据实现最先进的性能
3D-Based Methods的主要问题是 3D CNN 的高计算成本。
SECOND Detector
所提出的 SECOND 检测器,如图 1 所示,由三个组件组成:(1)体素特征提取器; (2) 稀疏卷积中间层; (3) 一个 RPN。
Point Cloud Grouping
这里和VoxelNet一样,我们首先根据指定的体素数量限制预先分配缓冲区;然后,我们遍历点云并将这些点分配给它们相关的体素,并保存体素坐标和每个体素的点数。我们在迭代过程中根据哈希表检查体素的存在。如果与某个点相关的体素还不存在,我们在哈希表中设置相应的值;否则,我们将体素的数量加一。一旦体素的数量达到指定的限制,迭代过程将停止。最后,我们获得所有体素、它们的坐标以及每个体素的点数,以获得实际体素数。最后,我们获得所有体素、它们的坐标以及每个体素的点数,以获得实际体素数。为了检测相关类别中的汽车和其他物体,我们在z ×y ×x轴根据gt剪点云[−3, 1] ×[−40, 40] ×[0, 70.4]米(要用的点云空间大小)。对于行人和骑车人检测,我们裁剪[−3, 1] ×[−20, 20] ×[0, 48]米,对于我们较小的模型,我们仅使用 [−3, 1] ×[−32, 32] ×[0, 52.8]米范围内的点来提高推理速度。
裁剪后的区域需要根据体素大小进行微调,以确保生成的特征图的大小可以在后续网络中正确下采样。对于所有任务,我们使用 D = 0.4,H = 0.2 ,W = 0.2米的体素大小。汽车检测的每个空体素内的最大点数设置为T = 35,基于KITTI数据集中每个体素的点数分布选择;行人和骑自行车的人检测的相应最大值设置为 T = 45,因为行人和骑自行车的人相对较小,因此,体素特征提取需要更多的点。
Voxelwise Feature Extractor
使用VoxelNet中的VFE,就是PointNet后加max函数