论文精读|AAAI2023录用论文：TED解决自动驾驶三维目标检测的变换等变难题

论文标题：Transformation-Equivariant 3D Object Detection for Autonomous Driving

论文地址：https://arxiv.org/abs/2211.11962

论文代码：近期开源，请关注KITTI三维目标检测榜单

论文作者：吴海（厦门大学）、温程璐（通讯作者，厦门大学）、李伟（嬴彻科技）、Xin Li（Texas A & M University）、杨睿刚（嬴彻科技）、王程（厦门大学）

此次介绍的是厦门大学空间感知与计算实验室（asc.xmu.edu.cn）近期被AAAI-23 人工智能顶级会议接收的一篇论文：「Transformation-Equivariant 3D Object Detection for Autonomous Driving」。AAAI Conference on Artificial Intelligence会议是人工智能领域最重要的国际会议之一，是CCF A类推荐会议，每年举办一届。AAAI-23将于2023年2月7-14日在美国华盛顿特区华盛顿会议中心举行。本次AAAI-23共有8777篇投稿，录用1721篇，录用率19.6%。

本文针对自动驾驶场景中汽车行人等目标朝向复杂、难精确定位的问题，设计了一个新的变换等变三维目标检测方法（TED）。TED通过应用稀疏卷积主干提取多通道变换等变体素特征，然后将这些等变特征对齐和聚合为轻量级和紧凑的表示，实现了高性能的3D目标检测。在竞争激烈的KITTI 3D汽车检测排行榜上，TED排名第一长达6个月（2022/5/18 到2022/11/10）。

一、研究背景和挑战

三维目标检测是实现自动驾驶的关键技术。近年来，涌现出大量的三维物体检测方法。这些方法大多使用体素或点操作来构建检测框架。然而由于自动驾驶场景中目标类别、姿态、位置多样，实现高性能的三维目标检测仍存在巨大挑战。

自动驾驶场景中汽车、行人等目标的位置、运动方向多种多样，从稀疏点云数据中实现精确的目标朝向预测存在较大困难。通常我们希望三维检测器的检测结果对于旋转和对折变换是等变的。通俗来讲，当一个刚体目标（如汽车、自行车等）的朝向发生变化时，目标检测得到的边界框应该具有相同的形状，且其朝向也应发生相应的变化。然而，大多数基于体素和基于点的方法都没有显式地建模这样的变换特性，继而产生不稳定的检测结果。很多检测方法通过数据增广实现近似的变换等变性。然而，它们的性能很大程度上依赖于更多的训练样本和采用更复杂、容量更大的网络。最近，测试阶段数据增强（TTA）和等变网络对输入数据做多个角度的变换，并通过共享权重的卷积网络来提升检测的鲁棒性。然而，它们都需要大量的计算来处理不同变换的点云，往往在三维检测中无法达到实时性。例如，当对PointRCNN应用四个变换时，每次检测时间从0.1s每帧增加到0.4s以上。计算量大的问题严重阻碍了等变网络在自动驾驶等实时系统中的应用。

在这项工作中，我们提出了一个新的变换等变网络（TED）来解决这个问题。TED首先应用稀疏卷积主干提取多通道变换等变体素特征。然后，TED将等变特征对齐和聚合成轻量级和紧凑的表示，用于高性能的三维目标检测。

二、TED方法框架

如下图所示，TED由四个关键部分组成：（1）变换等变稀疏卷积（TeSpConv）主干网络；（2）变换等变鸟瞰图（TeBEV pooling）池化层；3变换不变体素（TiVoxel pooling）池化层。（4）距离感知数据增强（DA-Aug）。

TeSpConv设计细节。稀疏卷积（SpConv）被广泛用于三维目标检测。但SpConv仅仅对平移是等变的，对旋转和对折不等变。为了解决这个问题，我们通过扩展特征通道使SpConv对旋转和对折等变。其设计关键点为：（1）权重高度共享：各个变换特征通道采用共享权重的SpConv卷积得到。（2）对输入做多个旋转和对折变换：保证目标在任意离散的旋转和对折变换下都有对应的输出。

TeBEV pooling 设计细节。虽然等变体素特征包含的几何特征丰富，但由于特征通道过多，直接喂入RPN用于产生目标候选计算量巨大。TeBEV pooling将体素特征编码为轻量级的表示用于候选生成（如下图（a）所示），其设计的关键点为：（1）BEV特征对齐：通过线性插值将各个变换特征通道对齐到同一个变换下。（2）BEV特征pooling：通过max pooling，每个变换通道仅保留最有效的特征，去除冗余的特征。

TiVoxel pooling设计细节。为了快速、精确地进行目标候选优化，我们提出TiVoxel pooling，从等变体素特征中提取局部实例级特征，并将其编码为轻量级表示。其关键点为：（1）Multi-grid pooling：通过将候选框生成多个局部栅格点集合实现在多个变换下的局部特征提取。（2）Cross-grid attention：使用注意力机制将不同变换下的局部特征汇聚为一个紧凑的特征表示。

DA-Aug设计细节。为了使检测器对远处的目标检测的更加鲁棒，我们从近处稠密目标创建更多的稀疏目标，并将这些目标添加到训练场景中用于数据增强（如下图（b）所示）。其关键点为：（1）球体素采样：模拟LiDAR的扫描方式进行采样。（2）遮挡模拟：随机丢弃目标的某些部分模拟真实场景中的遮挡。

三、实验结果

数据集和评价指标。论文使用了被广泛关注的自动驾驶公开数据集－KITTI数据集（https://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d）和Waymo数据集（https://waymo.com/intl/en_us/open）来验证提出的算法。KITTI包含7481个训练帧和7518个测试帧。我们遵循最近的工作将训练数据分为3712帧的train split和3769帧的val split。我们使用官方的AP（R40）作为三维目标检测的指标。Waymo数据集包含798个训练序列和202个验证序列。官方指标为 (mAP (L1)， mAP (L2))以及(mAPH (L1)，mAPH (L2))，其中L1和L2表示难度级别。

1. 性能比较。我们将TED产生的测试集结果提交到KITTI在线榜单上，可以看到TED的检测精度在汽车类别上超过基线的Voxel-RCNN 3.66%。此外，TED在所有的汽车、行人和骑自行车的类别中都优于之前的所有方法。截至2022年11月，在竞争激烈的KITTI 3D检测基准测试中，TED在汽车类中排名第一。

2. 消融实验。为了检验TED方法中每个组件的有效性并选择最佳超参数，我们在KITTI验证集的Car类上进行了一系列消融实验。旋转变换的数量。我们综合考虑了检测精度和检测效率，选择了最佳的旋转变换数量。其结果展示在左下表中。可以观察到旋转数量为三（N=3）的检测性能接近于N=4。为了高效率，我们采用N=3。它可以实现实时的检测性能，其运行速度约为11 FPS(单个3090 GPU)。接下来，验证设计中的每个组件的有效性。如右下表所示，通过添加我们提出的组件，基线都得到了很大的改进。具体而言，通过加入DA-Aug、TeBEV pooling和TiVoxel pooling单模态精度分别提高了0.43%、0.61%和1.58%，多模态基线也分别提高了0.49%、0.62%和1.7%。

实验结果3. 鲁棒性分析。TED的设计对不同距离、不同旋转变换更加鲁棒（如下图所示）。为了演示这种特性，我们对输入点云做了六种不同的变换，包括旋转和对折。下图（b）展示了TED方法在不同的变换下得到了更稳定的检测结果。原因是TED通过TeSpConv、TeBEV pooling和TiVoxel pooling显式建模旋转和对折变换，因此具有更稳健的性能。

四、总结

本文提出了一个高性能的三维目标检测器TED。TED将变换等变体素特征编码为紧凑的场景级和实例级表示，用于目标候选生成和精细化。该设计效率高，能更好地学习物体的几何特征。在竞争激烈的KITTI 三维目标检测基准测试中，TED性能领先。局限性：(1)由于输入的变换是离散的和体素化的，TED的设计不是严格的变换等变的。通过使用更多的变换和更小的体素，TED将更接近完全等变，但这带来了更高的计算成本。(2)考虑到加入更多的变换方式会增加计算成本，我们没有考虑缩放变换。(3)与基线相比，TED需要大约2倍的GPU内存。未来，我们将研究使用更少的卷积参数实现更高效的操作。