近日,实验室沈思淇沈老师和国防科技大学计算机学院师生合作,在国际人工智能顶级会议ICLR 2025上以“DoF: A Diffusion Factorization Framework for Offline Multi-Agent Decision Making” 为题发表了一篇关于多智能体强化学习研究成果的论文。
近年来,扩散模型凭借在图像生成和语言建模中的显著成功,逐渐被引入决策生成领域。然而,在多智能体离线决策(MADM)中的应用仍然有限,现有方法普遍面临协作性不足或扩展性受限的问题。传统集中式方法通常会随着智能体数量的增加导致状态和动作空间指数增长,难以扩展;而基于独立训练的分布式方法虽然在扩展性方面有一定优势,但往往无法有效捕捉智能体之间的协作关系。为解决这一难题,本文提出了“个体-全局分布一致性原则”(IGD),作为传统“个体-全局最大化原则”(IGM)的扩展。IGD原则要求每个智能体生成的数据分布与整个系统生成的数据分布保持一致。在此基础上,提出了DoF框架,一种专为多智能体离线决策设计的扩散分解框架。DoF通过噪声分解函数将集中式扩散模型分解为多个去中心化扩散模型,同时利用数据分解函数建模智能体间复杂的数据关系,从而在理论上保证满足IGD原则。
实验结果显示,DoF在星际争霸实验、多智能体粒子环境、多关节运动的物理引擎等多个任务中均表现出卓越的性能,在多智能体环境显著提升协作效率和扩展能力。与传统方法相比,DoF不仅能够更好地匹配真实数据,还在计算复杂度和智能体数量增加的场景下表现出显著优势。DoF为扩散模型在MADM中的应用提供理论支撑,为解决多智能体协作决策问题开辟新路径。
ICLR(全称International Conference on Learning Representations)是人工智能、表征学习、机器学习、计算神经科学领域的顶级会议。ICLR会议成立于2013年,今年是第13届会议,大会讨论的内容包含强化学习、计算机视觉、自然语言处理中的表征学习、深度学习理论与优化、度量学习、核学习、稀疏编码、以及学习表征的可视化与解释等细分领域。ICLR 2025共收到近11500份有效投稿,整体录用率为32.08%。