IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR）是人工智能领域的顶级国际会议，CCF A类会议。CVPR 2026 将于2026年6月3日-6月7日在美国丹佛举办，共有16,092篇论文进入评审流程，最终4090篇被接收，录取率为25.42%。ASC实验室本次接收7篇主会论文、推荐3篇findings论文，主题涉及具身导航、协同感知、定位感知多任务、具身智能图灵测试、超快人体动作捕捉、激光雷达定位、步态识别等方向。

V2U4Real: A Real-world Large-scale Dataset for Vehicle-to-UAV Cooperative Perception

简介：自动驾驶感知系统通常受限于遮挡、盲区以及有限的感知范围。已有的车车协同和车路协同范式感知主体为地面视角，难以有效应对大规模遮挡与远距离感知需求。本文提出首个面向车与无人机协同目标感知的大规模多模态真实场景数据集V2U4Real。V2U4Real由搭载有激光雷达与RGB相机的地面车辆与无人机协同采集，采集场景覆盖城市街道、校园以及乡村道路等多种交通环境，共包含超过56K帧激光雷达数据、56K张多视角相机图像，涵盖四类目标的70万个三维标注框。此外，本文构建了单智能体三维目标检测、协同三维目标检测以及多目标跟踪等基准任务。对多种当前先进模型的评估结果表明，车与无人机协同感知可显著提升复杂场景感知鲁棒性与远距离感知能力。

该论文第一作者是硕士生李伟佳、硕士生项浩恩，通讯作者是温程璐教授。并由王天旭、吴帅兵、夏启明、王程教授共同合作完成。

TACO: Task-Aware Contrastive Learning for Joint LiDAR Localization and 3D Object Detection

简介：自车定位和目标感知是自动驾驶车和智能机器人的关键任务。激光雷达视觉定位是对GNSS定位系统的有效补充手段。现有系统通常将定位与检测模型分离设计、分别优化，这导致计算冗余，也限制了跨任务知识迁移的潜力。此外，两项任务在语义关注与几何先验上存在差异，导致特征表示层面产生冲突，简单共享特征的多任务训练会导致性能下降。针对以上问题，本文提出了一种视觉定位和目标检测多任务学习框架TACO，通过对静态场景的几何结构特征与可移动目标的语义判别特征进行解耦，从而建立两个任务在同一框架下的协同关系。论文进一步构建了OxfoLD数据集以支撑训练与评估，实验结果表明，TACO在定位和检测性能上均有显著提升。

该论文第一作者是博士生邢乐园、硕士生张桓嘉，通讯作者是温程璐教授、王程教授。并由潘东屿，毕业生吴海（鹏城实验室），夏启明，熊恪峥，毕业生李文（布里斯托大学）共同合作完成。

图片2.png

MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation

简介：现有零样本导航方法在构建显式三维场景图的过程中将丰富的视觉信息压缩为纯文本的目标关系。这一过程导致了构建成本高昂、视觉证据不可逆丢失以及场景图词汇表受限等问题。为解决这些问题，本文首先提出了多模态三维场景图（M3DSG），通过动态分配图像替代文本关系边来保留丰富的视觉线索。基于多模态三维场景图，进一步开发了零样本导航系统MSGNav来执行更高效准确的导航。此外，本文进一步识别出零样本导航中的“最后一公里”难题——如何确定具有最优目标视野的可行导航点，并提出基于可见性的视角决策模块来明确解决该问题。实验结果表明，MSGNav在具有挑战性的GOAT-Bench和HM3D-ObjNav基准测试中均取得业界领先水平。代码即将开源：https://github.com/ylwhxht/MSGNav

该论文第一作者是博士生黄勋，通讯作者是温程璐教授、李伟欣副教授（北京航空航天大学）。并由赵世佳，张万发，王蕴红教授（北京航空航天大学）等共同合作完成。

LEADER: Learning Reliable Local-to-Global Correspondences for LiDAR Relocalization

简介：激光雷达重定位能够在复杂三维环境中提供精确的六自由度位姿估计。现有基于学习的回归方法通过直接预测全局位姿来提供高效解决方案，无需显式存储地图。然而，这类方法在复杂场景中往往表现欠佳，主要原因是它们对所有预测点采用同等权重处理，导致容易受噪声和外点影响。本文提出一种基于几何编码器增强的鲁棒激光雷达定位方法LEADER。具体来说，提出一种基于投影的鲁棒几何编码器架构，通过捕获多尺度几何特征来增强几何表示的描述能力；此外设计了TRR损失函数，建模点的可靠性并抑制不可靠预测的影响。在Oxford RobotCar和NCLT数据集上的实验表明，LEADER方法优于SOTA方法，分别降低了24.1%和73.9%的定位误差。

该论文第一作者是硕士生吴建实，通讯作者是敖晟助理教授。并由朱明航、刘敦强、毕业生李文（布里斯托大学）、沈思淇长聘副教授、温程璐教授、王程教授共同合作完成。

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

简介：近年来，人形机器人在运动生成与控制方面取得了显著进展，动作看起来越来越自然，但“是否真的像人类”仍缺乏统一评估标准。本文受图灵测试启发，提出了Robot Motion Turing Test（机器人行为图灵测试），通过仅保留运动学信息，让人类判断动作来源，从运动学角度评估机器人运动的类人程度。同时，本文构建了首个包含人类与人形机器人同类动作数据且包含人类评分标注的HHMotion 数据集，并进一步提出自动预测动作类人度的基准任务与模型。研究发现，即使在视觉外观因素被消除的情况下，当前机器人动作仍与人类存在明显差距，尤其在跳跃、拳击等高动态场景中更为突出。该工作为机器人行为图灵测试提供了以运动为中心的评估新范式，也为未来更自然的机器人运动生成奠定了基础。

该论文第一作者是博士生李明哲、硕士生刘梦茵，通讯作者是沈思淇长聘副教授。并由吴泽凯、林心成、张俊圣、颜明、谢曾烨、张长旺（OPPO研究院）、温程璐教授、许岚助理教授（上海科技大学）、王程教授共同合作完成。

FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision

简介：毫秒级运动计时对快速运动分析至关重要，在体育竞技等场景中毫秒之差往往决定成败。受限于高帧率标注数据的匮乏，毫秒级运动计时在姿态估计领域长期被忽视，而现有专业高速相机方案成本高昂且难以普及、对光照敏感且计算复杂度高，难以在日常场景中普及。为此，本文提出首个基于闪烁LED的毫秒级运动捕捉系统FlashCap。首先，利用该系统构建了包含事件相机、RGB等多模态的人体运动数据集FlashMotion；其次，针对毫秒级运动计时和超快人体动作捕捉任务，设计了基线网络ResPose，通过融合事件流与RGB特征预测残差姿态。实验表明，ResPose将姿态误差显著降低了约40%并实现了毫秒级计时精度，为高频微动态分析开辟了新途径。

该论文第一作者是硕士生吴泽凯、硕士生范书琪，通讯作者是沈思淇长聘副教授。并由刘梦茵、罗裕华、林心成、颜明、吴俊豪、毕业生林修弘、马月昕副教授（上海科技大学）、温程璐教授、许岚助理教授（上海科技大学）、王程教授共同合作完成。

Text-guided Feature Disentanglement for Cross-modal Gait Recognition

简介：步态识别在远距离和非侵入式身份验证场景中具有显著优势。由于激光雷达和RGB相机等异构传感器的数据间存在模态鸿沟，跨模态步态识别极具挑战性。为此，本文提出了一种文本引导的跨模态特征解耦网络TCFDNet，利用感知模态的文本先验作为语义锚点来引导特征学习。首先，利用大语言模型构建步态模态文本字典（GMTD）以生成跨模态与视角的丰富语义描述，并采用基于CLIP的多粒度特征编码器在统一的视觉-语言空间中对齐视觉与文本特征；其次，设计文本引导的特征解耦（TFD）模块，选取最佳匹配文本重建模态特定表示，并通过残差分解与正交性约束提取模态共享特征；最后，提出特征稳定性增强（FSE）模块以建模空间和通道相关性，并引入跨模态块（Patch）交换策略，有效提升了解耦特征的鲁棒性与模型的泛化能力。在SUSTech1K和FreeGait数据集上的实验表明，TCFDNet达到了全新的SOTA性能。

该论文第一作者是博士生陆志阳，通讯作者是程明教授。

图片7.png