PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
Abstract
我们提出的方法深度集成了 3D 体素卷积神经网络 (CNN) 和基于 PointNet 的集合抽象,以学习更多有区别的点云特征。它利用了3D体素CNN的高效学习和高质量建议以及基于PointNet的网络的灵活感受野。首先,通过一个Set abstraction层将3D场景下的点云通过3D VoxelCNN转换成一组关键点,以节省后续计算和编码表示场景特征。通过 voxel CNN生成的高质量3D proposals,RoI grid pooling 通过set abstraction从关键点到 RoI 网格点的抽象提案特定特征。与CNN池化比,RoI-grid 特征点编码了更丰富的上下文信息,用于准确估计对象置信度和位置。
Introduction
我们使用点体素集成网络从不规则点云中学习更好的 3D 特征。
主要的挑战是,如何有效地结合这两种类型的特征学习方案:稀疏的3D voxel CNN 【Submani- fold sparse convolutional networks】【3d semantic segmentation with submanifold sparse convolutional networks】和PointNet-based set abstraction成一个统一的框架。直观的解决方案是在每个3D提案中统一采样几个网格点,并采用集合抽象来聚合围绕这些网格点的 3D 体素特征以进行提案细化。然而,这种策略是高度内存密集型的,因为体素的数量和网格点的数量都可能非常大,以达到令人满意的性能。
因此,为了更好地整合这两种类型的点云特征学习网络,我们提出了一个两步策略,第一个 voxel-to-keypoin编码步骤和第二个keypoint-to-grid RoI feature abstraction。
Keypoint问题:使用voxel CNN with 3D sparse convolution来学习体素特征。为了缓解体素太多的问题,通过最远点采样 (FPS) 选择一小组关键点来总结