论文名 ResQ: A Residual Q Function-based Approach for Multi-Agent Reinforcement Learning Value Factorization

 

作者:沈思淇,邱梦薇,刘俊,刘伟权,符永铨,刘新旺,王程


本篇论文为厦门大学信息学院第一篇NeurIPS Spotlight论文, Spotlight论文录用率为5%。


简介:多智能体强化学习难以训练,可扩展性差,学术界和工业界的主流解决方法是采用价值分解算法来训练多智能体。但是现有主流价值分解方法存在表达能力不足,学习效率较低等挑战。针对这一挑战,本文提出了ResQ,基于残差Q函数的价值分解方法,通过遮挡部分状态动作对的方式,将多智能体价值函数分解为主价值函数和残差价值函数的和。主价值函数用于重构与原有价值函数相同的最优策略,而残差价值函数用于保存被遮挡的状态动作对的价值。本文通过在矩阵游戏,星际争霸,捕食者游戏中进行充分实验,证明了ResQ方法的有效性。沈思淇老师是第一作者,国防科技大学符永铨老师为论文通讯作者。厦门大学计算机系2021级硕士生邱梦薇、2020级硕士生刘俊分别为学生一作和学生二作。其他作者还有厦大刘伟权博士,王程老师,国防科技大学刘新旺老师。



resq_nips.png 


 

NeurIPS 2022简介

NeurIPS是当前全球最负盛名的 AI 学术会议之一,全称是 Neural Information Processing Systems,神经信息处理系统大会,通常在每年12 月由NeurIPS基金会主办。大会讨论的内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。今年NeurIPS已是第36届,将于11月28日至12月9日举行,为期两周。第一周将在美国新奥尔良 Ernest N. Morial 会议中心举行现场会议,第二周改为线上会议。本届会议共有 10411 篇论文投稿,接收率为 25.6%。