
CVPR 2025共提交了13008份有效论文,2878篇论文被接收,录用率为22.1%。其中Highlight论文被认为特别具有创新性的论文,共接收了387篇(占总投稿数的2.97%)。实验室今年被接收了9篇CVPR论文,投稿录用率66.7%,其中2篇三维点云处理工作入选Highlight。分别为稀疏监督三维目标检测工作(SP3D)和基于激光雷达的攀岩人体动作捕捉工作(ClimbingCap)。
SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts
实验室近年来提出系列三维目标检测与跟踪方法,覆盖全监督、弱监督、无监督、跨模态监督和多模态融合,成果发表在CVPR、ICCV、ECCV、NeurIPS、AAAI等人工智能国际重要会议上。方法多次在自动驾驶数据集KITTI的目标检测与跟踪榜单上位于榜首。
SP3D方法借助多模态大模型(LMM)的强大推理能力,探索将LMMs中的图文先验信息迁移到点云模态中。利用LMM生成的跨模态语义提示,有效增强稀疏监督的三维目标检测性能。论文第一作者是实验室2023级博士生赵世佳和2022级博士生夏启明,通讯作者是温程璐教授。由郭徐晟、邹普凡、郑茂基、吴海、王程教授共同合作完成。
SP3D论文简介
稀疏监督三维目标检测利用特征挖掘等手段,能够在较低的标注率下实现接近全监督方法的表现。然而,随着标注率的逐步降低,现有的稀疏监督方法在处理极度稀疏的标注数据时,难以提取出具有足够辨别力的特征,从而无法维持稳健的性能表现。
随着多模态大模型(LMM)在图像-文本领域的发展,一些工作尝试通过二维图像与三维点云之间的转换关系,将LMMs中的图文先验信息迁移到点云模态中。受这些方法启发,本文提出了一种两阶段的训练策略SP3D(如图3所示),利用LMM生成的跨模态语义提示增强稀疏监督的三维目标检测方法。本文首先使用LMM从二维图像中提取语义信息,并显式地将它们转移到三维点云中,为检测器训练的第一阶段生成伪标签。在第二阶段,本文用稀疏的真实标签对训练后的检测器进行微调。
然而,这种增强的范式仍然存在一些挑战:(1)实例边缘的语义歧义。由于图像中缺乏深度信息,直接将图像语义传输到点云上可能会导致在实例边缘处出现语义错误分配问题。(2)伪标签高效生成。根据获得的语义提示,直接拟合伪标签可能会导致不完整的前景边界框。此外,由于缺乏真实的标注数据,很难评估生成的伪标签的质量。
针对上述挑战,SP3D首先设计了可信点语义迁移(CPST)模块,通过边界约束的中心聚类选择操作,过滤掉语义掩码中不准确的边缘部分,仅关注其具有高置信度的核心区域,从而生成准确的跨模态语义提示。之后,引入了动态聚类伪标签生成(DCPG)模块和分布形状(DS)得分,以根据跨模态语义提示高效地发现和评估具有完整前景信息的高质量伪标签。

表1和表2分别展示了SP3D方法与全监督和半监督、稀疏监督方法在KITTI数据集上的定量对比结果。可以看出,SP3D在不同标注率下,对不同类型的监督方法均能实现较高的性能提升。在标注率仅为0.5%的情况下,SP3D对比之前最好的稀疏监督三维目标检测方法CoIn、HINTED分别提升了10.6%和5.2%的平均检测精度。


表3和表4分别展示了SP3D在KITTI和Waymo开放数据集上的zero-shot检测结果。可以看出,在未使用真实标记数据的情况下,SP3D仍然能保持较高的检测精度。本文还对SP3D中各模块以及DS得分中的各组件进行了消融实验,验证了各模块的有效性。


ClimbingCap: Multi-Modal Dataset and Method for Rock Climbing in World Coordinate
该研究由厦门大学空间感知与计算实验室主导,第一作者为2022级博士生颜明和2023级硕士生林心成,合著者包括2024级博士生罗裕华、2023级硕士生范书琪、温程璐教授和王程教授,通讯作者为沈思淇长聘副教授。合作方包括上海科技大学的许岚助理教授、马月昕助理教授及苏黎世联邦理工学院博士后戴雨笛,国家攀岩队主教练钟齐鑫、浙江省攀岩队主教练钟林财、国家一级裁判员门立。项目得到了宁波体工大队、宁波市第二少年儿童业余体育学校和厦门岩舞空间攀岩馆的支持,提供场地、专业教练及数据采集协助。
ClimbingCap论文简介
近年来,攀岩作为一项新兴运动在全球范围内迅速走红,尤其在中国备受青睐。2024年巴黎奥运会上,中国运动员伍鹏在男子速度攀岩项目中勇夺银牌,这一成就不仅点燃了公众对攀岩的热情,也让这项运动成为全民健身的新宠。据《Global Times》报道,2024年8月,小红书上与攀岩相关的互动帖子已高达224万,攀岩馆在周末和下班后的预订量显著增加,特别是在深圳和上海,年轻人的参与度尤为突出。预计到2025年,中国室内攀岩馆数量将达到899个,充分体现了攀岩作为一种减压和健身方式的巨大吸引力。


针对传统人体动作恢复(HMR)方法在攀岩场景中的局限性,研究团队提出了ClimbingCap算法,旨在精确重建攀岩者在全局坐标系中的连续3D动作。该算法包含三大核心模块:(1)分离坐标解码(SCD).ClimbingCap利用RGB序列和LiDAR点云分别提取特征,在相机坐标系中预测攀岩者的姿势,同时在世界坐标系中计算其位置。通过多模态数据的协同处理,算法有效分离了局部姿势和全局轨迹的解码过程,确保动作重建的准确性与一致性。SCD模块采用深度神经网络提取RGB图像的空间特征,并对LiDAR点云进行时空间几何编码,充分挖掘多源数据的互补优势。(2)后处理优化。为应对攀岩动作的复杂性(如悬空姿态和岩壁接触),ClimbingCap引入了后处理步骤,包括速度方向平滑损失(Velocity Direction Smoothing Loss)。该损失函数约束肢体运动的连续性,修正预测中的异常抖动,确保动作序列的自然流畅。实验表明,若移除此损失,算法的全局性能将显著下降,凸显其在攀岩场景中的关键作用。(3)半监督训练。考虑到攀岩动作数据标注的高成本,ClimbingCap设计了半监督训练框架,利用大规模未标注数据提升模型泛化能力。通过结合少量标注数据和大量未标注攀岩序列,算法在复杂场景下的鲁棒性得到进一步增强。

攀岩动作捕捉因其复杂的非地面动态、与岩壁的交互以及全局定位的挑战而极具研究难度。为此,研究团队推出了AscendMotion数据集,涵盖22名技术娴熟的攀岩教练在12个不同岩壁上的动作数据,总计412,000帧。该数据集整合了RGB图像、激光雷达(LiDAR)点云和惯性测量单元(IMU)等多种模态数据,确保了动作捕捉的多样性和高精度。数据采集过程中,团队使用专业设备记录攀岩者的复杂姿势和全局轨迹,特别针对攀岩中常见的悬空动作和动态交互进行了优化设计。这一数据集不仅填补了攀岩领域高质量动作数据的空白,还为后续算法开发提供了坚实基础。
相关源代码和数据集已开源于 http://www.lidarhumanmotion.net/climbingcap/,供研究社区进一步探索。