实验室7篇论文被CVPR2024录用

ASC实验室共有7篇一作论文被CVPR2024接收录用，其中6篇为激光雷达点云处理方向(视觉定位/目标检测/人体动捕/语义分类)。代码数据陆续开源中。 CVPR 2024将于2024年6月17日至21日在美国西雅图举行。CVPR是计算机视觉领域的顶级国际会议，CCF A类会议。

1. 引入语义感知的无地图激光雷达视觉定位LiSA：LiDAR Localization with Semantic Awareness

论文简介：激光雷达定位可估计全球地图中激光雷达点云的姿态。场景坐标回归(SCR)在这项任务中展示了最先进的性能，其中场景被表示为神经网络，网络输出点云中每个点的世界坐标。针对SCR在定位过程中平等对待所有点，忽略了并非所有对象都有利于定位的问题，本文提出了LiSA，首次将语义感知融入SCR以提高定位鲁棒性和准确性。为了避免推理过程中的额外计算或网络参数，将分割模型中的知识蒸馏到原始SCR网络中。LiSA在标准激光雷达定位基准上的性能优越，应用知识蒸馏不仅保持了高效率，而且实现了更高的定位精度。

该论文的第一作者是厦门大学22级硕士生杨博淳、22级博士生郦子俊、蔡志鹏(Intel)，通讯作者是王程教授，由李文、温程璐教授、臧彧副教授、Matthias Müller(Intel)等共同合作完成。该文获全满分评价。

2. 基于扩散模型的户外无地图激光雷达视觉定位DiffLoc:Diffusion Model for Outdoor LiDAR Localization

论文简介：绝对位姿回归(APR)以端到端的方式估计全局位姿，在基于学习的激光雷达定位中取得较好性能。然而，其性能仍远落后于基于3D-3D匹配的方法。本文以3D匹配方法中的场景坐标回归为例进行深入分析，发现在APR中存在着缺少场景鲁棒特征编码和迭代去噪过程的问题。为解决这些问题，本文提出了DiffLoc方法，通过融合基础模型和扩散模型的思想，显著提高了APR的定位精度。此外，得益于扩散框架，DiffLoc实现了位姿不确定性估计，在城市和校园区场景下展现出卓越的性能。

该论文的第一作者是厦门大学21级博士生李文，通讯作者是王程教授，由杨煜阳、于尚书(南洋理工大学)、胡国胜(Oosto)、温程璐教授，程明教授等共同合作完成。

3. 一体化多模态人体复杂运动数据集和融合方法A Comprehensive Multimodal Human Motion Dataset and Method

论文简介：针对复杂且快速的全局人体动作捕捉问题，我们基于激光雷达、IMU、RGB相机和事件相机构建了多模态人体运动数据集-RELI11D，包括在 7 个不同的真实体育场景中进行的5项体育运动动作。本文还提出了一种全局人体姿态估计任务上的多模态Baseline-LEIR，设计了适用于人体姿态重建的交叉注意融合策略。实验表明，LEIR 在快速运动和日常运动方面表现出较好性能，且验证多模态数据集特征可有效提升HPE 性能。

该论文的第一作者是厦门大学22级博士生颜明和22级硕士生张妍，通讯作者是沈思淇助理教授，由蔡树强、范书琪、温程璐教授、许岚研究员(上海科技大学)、马月昕研究员(上海科技大学)、王程教授等共同合作完成。

4. 基于常识原型的无监督室外三维目标检测Commonsense Prototype for Outdoor Unsupervised 3D Object Detection

论文简介：本文针对无监督三维目标检测中伪标签质量低、定位误差大的问题，设计了一个新的基于常识原型的目标检测框架。首先，提出了完整性与形状相似性无监督评分，通过筛选高质量伪标签构建目标常识原型集合。其次，提出了基于原型约束的边界框规范化(CBR)，利用原型集合中目标形状先验极大提高了伪标签的质量。最后，提出了基于原型约束的自训练(CST)，利用原型集合中目标几何先验显著提高了无监督目标检测的精度。该方法在Waymo Open Dataset，KITTI和PandaSet自动驾驶数据集均达到最好的无监督三维目标检测精度。

该论文的第一作者是厦门大学21级博士生吴海，通讯作者是温程璐教授，由赵世佳、黄勋、Xin Li教授(Texas A & M University)、王程教授等共同合作完成。

5. 混合密度特征融合增强困难实例的稀疏监督三维目标检测HINTED: Hard Instance Enhanced Detector with Mixed-Density Feature Fusion for Sparsely-Supervised 3D Object Detection

论文简介：针对稀疏监督中未标注的困难实例难挖掘的问题，本文提出了一种新的利用混合密度特征融合的困难实例增强检测器。首先，设计了一个自提升教师模型来生成更多潜在的伪标签，提高了信息传递的有效性。然后，引入了一个混合密度学生模型，以在训练阶段增强对困难实例的感知。实验结果表明，与领先的稀疏监督方法相比，HINTED显著提高了对困难实例的检测性能，在检测具有挑战性的类别(如骑自行车的人)方面明显优于完全监督方法。HINTED在具有挑战性的类别上也显著优于最先进的半监督方法。

该论文的第一作者是厦门大学22级博士生夏启明，通讯作者是温程璐教授，由叶伟、吴海、赵世佳、邢乐园、Xin Li教授(Texas A & M University)、王程教授等共同合作完成。

6. 基于密度指导转换器的三维点云无监督域自适应分割Density-guided Translator Boosts Synthetic-to-Real Unsupervised Domain Adaptive Segmentation of 3D Point Clouds

论文简介：三维点云无监督域自适应分割可有效减少繁重且昂贵的人工数据标注成本。本文设计了一基于统计的密度指导转换器来解决因不同传感器之间采样模式不匹配所引起的点密度不匹配问题。其通过为每个域生成与其它域相似的点云扫描，以在输入端缩小域差异。并在此基础上，提出了DGT-ST双阶段点云跨域分割框架。在两个公开的合成到真实(SynLiDAR 到 semanticKITTI 和 semanticPOSS)UDA分割数据集上，相较于当前最先进的方法，DGT-ST分别实现了9.4%和4.3%mIoU 的性能提升。

该论文的第一作者是厦门大学20级博士生袁直敏，通讯作者是程明教授，由曾万康、苏燕飞、刘伟权、王程教授等共同合作完成。

7. 基于几何一致性先验的少样本室内场景神经辐射场Global and Hierarchical Geometry Consistency Priors for Few-shot NeRFs in Indoor Scenes

论文简介：本文在稀疏视图神经辐射场的训练中引入了两种几何约束，以解决360°外向的室内场景中视角变化过大造成的的新视图合成质量低的问题。通过在训练早期引入基于图像匹配的全局几何一致性先验来预热神经网络，有效地避免了少样本NeRFs在早期训练陷入过拟合的情况。通过引入几何单目深度估计的层次几何一致性约束，在单视图层面执行分组深度排序约束，在射线权重分布层面执行掩码正则化，进一步强化NeRFs对场景中不同物体位置关系的学习。在ScanNet和Replica数据集上实现了稀疏输入时新视图和深度图渲染的SOTA性能。

该论文的第一作者是厦门大学20级博士生孙啸天，通讯作者是王程教授，由徐青山(南洋理工大学)、杨鑫杰、臧彧副教授等共同合作完成。