专利 一种多Agent深度强化学习算法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111240522.5 (22)申请日 2021.10.25 (71)申请人吉林建筑大学地址 130118 吉林省长春市新城大街5 088 号 (72)发明人王旭　张宇　郭秀娟　徐勇　尤天舒　富倩　孙伟　刘钢　戴传祗　吴程巍　 (74)专利代理机构西安合创非凡知识产权代理事务所(普通合伙) 61248 代理人支思迪 (51)Int.Cl. G06N 3/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 20/00(2019.01) (54)发明名称一种多Agent深度强化学习算法 (57)摘要本发明公开了一种多Agent深度强化学习算法，包括： S1：学习的策略在执行时只使用本地信息，即它们自己的观察结果； S2：智能体之间的通信方法不做任何结构上的假设，即不假设一个可区分的通信渠道； S3： leader层网络只输入全局智能体的状态信息，只作用于每个智能体的输出动作值，并不参与每个智能体的策略执行，既保持每个智能体的独立性，又保证所有智能体群体之间的通信。本发明通过在分布式执行之前加入集中式预判分配权重，增强了智能体群体之间的决策通信，提高了Leader_MADDPG在多变的环境关系中智能体训练过程中的稳定性和训练后的鲁棒性。权利要求书2页说明书7页附图7页 CN 113902087 A 2022.01.07 CN 113902087 A 1.一种多Agent深度强化学习算法，其特征在于，包括： S1：学习的策略在执行时只使用本地信息，即它们自己的观察结果； S2：智能体之间的通信方法不做任何结构上的假设，即不假设一个可区分的通信渠道； S3： leader层网络只输入全局智能体的状态信息，只作用于每个智能体的输出动作值，并不参与每个智能体的策略执行，既保持每个智能体的独立性，又保证所有智能体群体之间的通信。 2.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：所述多 Agent深度强化学习算法中智能体i的期望收益的梯度如公式（1）所示： (1) 其中是一个集中的动作值函数，它将所有智能体的动作加上一些状态信息x作为输入，然后输出智能体i的Q值；智能体可以有任意的奖励方式，包括在竞争环境中相互冲突的奖励。 3.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：多Agent集中式leader层的期望收益的梯度更新方式如式（2）所示： (2) 其中是leader网络的参数集合，为所有智能体策略的集合。 4.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：对于评估网络更新，经验回放缓冲区D包含元组，记录了所有智能体的经验，集中的评估网络更新方式如式（3）所示： (3) 其中为具有延迟参数的目标策略集合，为具有延迟参数的目标预判集合。 5.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：策略层神经网络采用Leaky_Relu和 Tanh作为层与层之间的激活函数，以智能体i自身的本地信息作为输入，输出其对应的策略动作，与leader层输出当前全局信息下的每个智能体i的策略动作占比权重值相乘，作为最终的策略动作输出值。 6.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：全局评估网络层采用Leaky_Relu作为层与层之间的激活函数，以所有智能体的全局信息以及每个智能体i的最终策略动作值作为输入，进而对每个智能体i的策略网络以及leader层网络进行评估反馈更新。 7.根据权利要求1所述的多Agent深度强化学习算法，其特征在于，还包括：所述多 Agent深度强化学习算法在多Agent系统中， leader层以及评估网络的输入空间随着智能体个数n线性增长，所采取的解决方案是局部模块化以实现leader层及评估层功能，外加一层权　利　要　求　书 1/2 页 2 CN 113902087 A 2全局的评估网络对局部leader层以及局部评估层的Q 值进行更新。权　利　要　求　书 2/2 页 3 CN 113902087 A 3

专利 一种多Agent深度强化学习算法

专利一种多Agent深度强化学习算法