International Conference on Machine Learning(ICML)是机器学习与人工智能领域的国际顶级学术会议,也是中国计算机学会CCF推荐的A类会议。ICML 2026将于2026年7月6日至11日在韩国首尔举办。本次大会共收到23918篇有效投稿,最终录用6352篇,录用率为 26.6%。ASC实验室本次接收6篇论文,主题涉及协同感知、激光雷达NeRFs、人体动作重建、具身智能安全、跨模态步态识别、强化学习无监督环境设计等方向。

X-MoGe: A Cross-Modal Adaptation Framework with Mixture-of-Experts and Geometry Guidance for Heterogeneous Collaborative Perception

简介:多智能体协同感知能够提升自动驾驶的感知范围与鲁棒性。通常不同智能体会搭载异构传感器且采用不同感知网络,引发严重的语义与几何位置不一致问题,进而影响多智能体间协同感知性能。由此,本文提出一种结合混合专家机制与几何引导融合的跨模态自适应异构协同感知框架X-MoGe。本文设计像素级混合专家模块(P-MoE),在异构感知条件下,对各模态独有的语义特征进行自适应建模;同时设计几何引导特征融合模块,引入显式几何先验约束,在鸟瞰图特征空间中实现特征的空间对齐与一致性约束。在OPV2V、DAIR-V2X 协同感知数据集上的实验结果表明所提方法的优异性能。

该论文第一作者是厦门大学2024级硕士生林文铠,通讯作者是温程璐教授。并由博士生刘智鸿共同合作完成。

1777688994.png

MAC-NeRF: Motion-Aware Curriculum Learning for Dynamic LiDAR NeRFs

简介:激光雷达新视角合成技术通常受限于动态场景中的移动目标破坏了多视角一致性。已有的动态NeRF范式在面临不可靠的初始运动先验时,难以有效解耦真实几何结构与运动噪声,从而产生严重的监督冲突与重影伪影。本文提出一种基于运动感知课程学习的动态LiDAR NeRF高保真合成框架。提出的MAC-NeRF通过修正时间一致性模块(RTC)过滤错误的监督信号以优先学习可靠的时间对应关系,并构建置信度调制频率正则化机制(CMFR)自适应抑制早期伪影并平滑过渡到保留精细细节。对KITTI-360和nuScenes等大规模真实数据集的评估结果表明,该框架可显著提升复杂动态场景的几何渲染质量。

该论文第一作者是博士毕业生于尚书(东北大学),通讯作者是博士毕业生李文(布里斯托大学)、王程教授。并由博士生孙啸天、厍睿教授(北京航空航天大学)、汪汉云副教授(中山大学)、敖晟助理教授、温程璐教授共同合作完成。

1777689112.png

MotionMAR: Multi-scale Auto-Regressive Human Motion Reconstruction from Sparse Observations

简介:人体运动遵循一种时间上的层级结构,从低频的全局轨迹延伸到高频的细节。受计算机视觉中多级自回归模型成功的启发,本文提出一种从稀疏观测中进行运动重建的由粗到细的框架MotionMAR。它首先估计人体运动的全局轨迹,然后逐步细化时间细节。该架构由四个集成组件组成:时间多尺度标记化(TMT)VQ-VAE 在多个时间分辨率上对数据进行编码,将语义运动与细微抖动分离开来;运动自回归网络(MAN)首先通过粗略索引建立全局结构,然后生成更精细的索引以恢复具体细节;尺度感知控制(SAC)模块整合稀疏跟踪数据,以确保生成的输出与实际观测一致;运动细化网络(MRN)平滑连续姿势并消除量化伪影。实验表明本方法在 AMASS 数据集上达到了最先进的准确率,为运动重建提供了一种可靠且结构感知的方法。

该论文第一作者是厦门大学2024级博士生罗裕华、2025级硕士生张俊圣,通讯作者是沈思淇长聘副教授。并由刘梦茵、林心成、颜明、陈朱迪、温程璐教授、许岚助理教授(上海科技大学)、王程教授共同合作完成。

1777689146.jpg

Position: Embodied AI Requires a Privacy-Utility Trade-off

简介:本文讨论了具身智能在家庭、医疗、养老等真实敏感场景中部署时面临的“隐私-效用”权衡问题。论文指出,现有具身智能方法通常分别优化“指令理解、环境感知、动作规划、物理交互”等独立阶段,却忽视了隐私风险在系统生命周期中的跨阶段耦合传播,导致局部隐私保护措施难以应对真实部署中的不可逆隐私泄露。为此,本文提出具身智能安全隐私协同框架SPINE,将隐私视为贯穿具身智能全生命周期的动态控制信号,而非单一模块的局部补丁。SPINE 构建了从 L1 Public 到 L4 Restricted 的多级隐私分类矩阵,并根据不同场景的敏感程度动态调节感知、规划与交互策略,在保证任务可用性的同时降低隐私暴露风险。论文进一步通过仿真导航任务与真实 AGV 平台实验,展示了隐私约束如何影响导航成功率与路径效率,揭示了具身智能系统中“隐私-效用”权衡的结构性特征。该论文录用为ICML 2026 Position track的Regular论文。

该论文第一作者及通讯作者是厦门大学高级工程师范晓亮,并由硕士生陈嘉睿、刘卓栋、杨子棋、许培炫、沈瑞敏、刘俊辉、Jianzhong Qi教授(墨尔本大学)、王程教授共同合作完成。

图片2.png

DiffCrossGait: Trajectory-Level Alignment for 2D-3D Cross-Modal Gait Recognition via Latent Diffusion

简介:跨模态 2D–3D 步态识别长期受到模态差异的制约:2D 轮廓图与 3D 点云在数据分布、结构表达和动态特征上存在天然鸿沟。现有方法大多仅在最终特征嵌入层进行对齐,难以充分建模两种模态在生成与演化过程中的深层一致性。为此,我们提出DiffCrossGait,一种基于统一潜在扩散过程的跨模态步态识别框架。不同于传统的末端特征对齐方法,DiffCrossGait 通过在潜在空间中引入共享高斯噪声,驱动 2D 与 3D 两种模态共同参与同一扩散演化过程,从而实现轨迹级别的连续对齐。进一步地,我们设计了 三阶段对齐策略(Tri-Phase Alignment Strategy),利用不同噪声强度下的特征特性,分别约束身份锚定、动态一致性与跨模态结构可恢复性。该策略促使两种模态共享相似的去噪动态与信息瓶颈结构,从而学习更加稳定、鲁棒且模态无关的步态表征。值得说明的是,DiffCrossGait 将生成式对齐机制与判别式识别主干进行解耦。扩散模型仅作为训练阶段的优化目标使用,在推理阶段无需迭代去噪,因此不会引入额外计算开销,保证了高效的实际部署能力。在 SUSTech1K 与 FreeGait 两个基准数据集上的大量实验表明,DiffCrossGait 在跨模态 2D–3D 步态识别任务中取得了当前最优性能,充分验证了其有效性与先进性。 

该论文第一作者是厦门大学2024级博士生陆志阳,通讯作者是程明教授。

图片5.png

PACE: Parameter Change for Unsupervised Environment Design

简介:无监督环境设计(Unsupervised Environment Design, UED)通过自适应构造训练环境,为提升强化学习泛化能力提供了优质范式,但依赖可靠的环境评估才能保证效果。现有 UED 方法多采用遗憾值、价值误差、蒙特卡洛等间接代理信号评估环境,存在有偏、方差大、计算成本高的缺陷,也无法反映智能体实际学习进度。为解决以上问题,本文提出参数变化环境设计(PACE),依据智能体在环境训练后的策略参数变化评估环境,使环境选择直接贴合真实学习进展。该方法利用策略优化目标一阶近似计算环境价值,环境带来的性能提升与参数更新量平方范数成正比,无需额外轨迹采样,即可实现低方差、高效率评估。在 MiniGrid 和 Craftax上的实验表明本方法全面优于现有基线,分布外评估下IQM更高、最优性间隙更小;在MiniGrid中IQM达96.4%,最优性间隙仅17.2%。

该论文第一作者是国防科技大学博士生原方,通讯作者是国防科技大学助理研究员曾俊杰和李庆伦博士。并由国防科技大学尹全军研究员、谢毓湘教授、杨俊强副研究员、秦龙副教授,沈思淇长聘副教授厦门大学)共同合作完成。

1777689214.png