另外,由于对每个点的预测存在噪声,而后又在bev投影图中使用mean shift聚类方法得到更准确的目标框。总结:由于3D点云在做camera view投影的时候丢失了原来的3D结构信息,引入了图像中的尺度变化和遮挡两个问题,因此少有方法直接在这种模式下作3D目标检测,一般需要在网络输出基础上做比较多的后处理。但是camera view的表达模式,大的增加了远处点云的上下文信息,也是一种好的提高点云特征表达能力的方式,后续在融合感知方法中会再介绍。3.Point-wise基于lidar的目标检测方法迎来了*3大类方法的介绍,前面已经介绍过基于BEV(bird’s eye view)的目标检测方法[1],基于camera/rang view的目标检测方法[2],这两种方法在自动驾驶的实际运用中都很常见,算是比较主流的方法。这两种方法研究的也比较早,相对成熟一些。而point-wise目标检测方法自pointnet[3]之后,才有较多的研究文章用其解决自动驾驶中有关3D目标检测问题,在此之前,大都用来解决基于室内场景或者单个全扫描目标密集点云的分割、检测、场景理解的问题,其中研究有关RGB-D的问题多。这里我们将关注点放在如何用point-wise feature来解决自动驾驶的目标检测问题上。自2017年pointnet[3]之后出现的3D目标检测相关文章中,50%都出自中国香港中文大学,其中一部分来自商汤科技自动驾驶相关部门,如PointRcnn[4]、Part aware and aggregation[5]、PV Rcnn[6],另一部分来自腾讯优图实验室贾佳亚老师团队,同样也是自动驾驶相关业务方向,如IPoD[7]、Fast PointRcnn[8]、STD[9]、3DSSD[10]。这里面除了3DSSD[10]方法为one-stage detector,其他都是two-stage detector,而3DSSD[10]主打,从而也可以看出刷榜还得靠two-stage detector。我们从如下图所示的3个部分(lidar representation,network backbone,detection head),来介绍一下point-wise方法。其中lidar represention部分是直接使用点云做输入,即n*4的点集,不做单介绍,下面介绍一下其他两个部分。
Roi grid point feature extraction总结:目前基于point-wise feature的目标检测方法还处于研究阶段,效率无法保证,精度还未在真实自动驾驶车上,但由于该方法直接从点云提取特征,大的保留了点云的原始信息,比较有潜力得到更好的效果。参考文献:
1、PointPillars: Fast Encoders for Object Detection from PointClouds
2、VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
3、PIXOR: Real-time 3D Object Detection from Point Clouds
4、Multi-View 3D Object Detection Network for Autonomous Driving5、YOLO3D: End-to-end real-time 3D Oriented Object Bounding Box Detection from LiDAR Point Cloud6、SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud7、PointSeg: Real-Time Se ** ntic Segmentation Based on 3D LiDAR Point Cloud8、LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving
canonical transfor ** tionRoi aware Point Cloud Pooling[5]整体流程如下图6所示,与STD[9]中的pooling方法类似,先将proposal分割成固定大小的voxel,如14×14×14,然后再提取voxel特征表达:
· RoIAwareMaxPool:使用的是阶段输出的point-wise se ** ntic part feature,在voxel中计算 ** x pooling
· RoIAwareAvgPool:使用的是proposal中经过canonical transfor ** tion点坐标特征和segmentation score,在voxel中计算avg pooling
将两组特征联合作为proposal的pooling特征。
Roi aware Point Cloud Pooling Roi grid pooling[6]与上面两种pooling方法不同的是,并没有将proposal通过voxel得到固定大小的特征图,而是根据pv-rcnn[6]中提出的key point信息,将proposal用6*6*6=216个grid points表达,grid points是从proposal中的key points均匀采样获得,且RoI-grid point features提取过程和key point feature提取过程是相似的。简单来说是以grid point为中心,r为半径的区域内提取不同尺度、不同感受野的特征,在使用2层的MLP网络获得终的特征表达,如图7所示。
1. 特征提取:在proposal中随机筛选N个点,1)获得阶段的点特征;2)获得N个点的坐标,并用如下图5所示的canonical transfor ** tion得到与原坐标系无关的坐标特征。两种特征联合在一起,作为proposal中点的特征表达
2. Voxel表达:将不同大小的proposal,通过voxel统一化到相同大小:dl = 6,dw = 6,dh = 6
3. 使用VFE layer提取终特征