多智能体强化学习价值分解算法ResQ
多智能体强化学习难以训练,可扩展性差,学术界和工业界的主流解决方法是采用价值分解算法来训练多智能体。但是现有主流价值分解方法存在表达能力不足,学习效率较低等挑战。针对这一挑战,本文提出了ResQ,基于残差Q函数的价值分解方法,通过遮挡部分状态动作对的方式,将多智能体价值函数分解为主价值函数和残差价值函数的和。主价值函数用于重构与原有价值函数相同的最优策略,而残差价值函数用于保存被遮挡的状态动作对的价值。本文通过在矩阵游戏,星际争霸,捕食者游戏中进行充分实验,证明了ResQ方法的有效性。