iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111240522.5 (22)申请日 2021.10.25 (71)申请人 吉林建筑大学 地址 130118 吉林省长 春市新城大街5 088 号 (72)发明人 王旭 张宇 郭秀娟 徐勇  尤天舒 富倩 孙伟 刘钢  戴传祗 吴程巍  (74)专利代理 机构 西安合创非凡知识产权代理 事务所(普通 合伙) 61248 代理人 支思迪 (51)Int.Cl. G06N 3/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 20/00(2019.01) (54)发明名称 一种多Agent深度强化学习算法 (57)摘要 本发明公开了一种多Agent深度强化学习算 法, 包括: S1: 学习的策略在执行时只使用本地信 息, 即它们自己的观察结果; S2: 智能体 之间的通 信方法不做任何结构上的假设, 即不假设一个可 区分的通信渠道; S3: leader层网络只输入全局 智能体的状态信息, 只作用于每个智能体的输出 动作值, 并不参与每个智 能体的策略执行, 既保 持每个智能体的独立性, 又保证所有智能体群体 之间的通信。 本发明通过在分布式执行之前加入 集中式预判分配权重, 增强了智能体群体之间的 决策通信, 提高了Leader_MADDPG在多变 的环境 关系中智能体训练过程中的稳定性和训练后的 鲁棒性。 权利要求书2页 说明书7页 附图7页 CN 113902087 A 2022.01.07 CN 113902087 A 1.一种多Agent深度强化学习算法, 其特 征在于, 包括: S1: 学习的策略在执 行时只使用本地信息, 即它 们自己的观察结果; S2: 智能体之间的通信方法不做任何结构上的假设, 即不 假设一个可区分的通信渠道; S3: leader层网络只 输入全局智能体的状态信息, 只作用于每个智能体的输出动作 值, 并不参与每个智能体的策略执行, 既保持每个智能体的独立性, 又保证所有智能体群体之 间的通信。 2.根据权利要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 所述多 Agent深度强化学习算法中智能体i的期望收益的梯度如公式 (1) 所示:     (1) 其中 是一个集中的动作值函数, 它将所有智能体的动作 加上一些状态信息x作为输入, 然后输出智能体i的Q值; 智能体可以有任意 的奖励方式, 包括在竞争环境中相互冲突的奖励。 3.根据权利要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 多Agent集 中式leader层的期望收益的梯度更新方式如式 (2) 所示:     (2) 其中 是leader网络的参数集合, 为所有智能体策略的 集合。 4.根据权利 要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 对于评估网 络更新, 经验回放缓冲区D包含元组 , 记录了所有智能体的经 验, 集中的评估网络更新方式如式 (3) 所示:           (3) 其中 为具有延迟参数 的目标策略集合, 为具有延迟 参数 的目标预判集合。 5.根据权利 要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 策略层神经 网络采用Leaky_Relu和 Tanh作为层与层之间的激活函数, 以智能体i自身的本地信息作为 输入, 输出其对应的策略动作, 与leader层输出当前全局信息下的每个智能体i的策略动作 占比权重值相乘, 作为 最终的策略动作输出值。 6.根据权利 要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 全局评估网 络层采用Leaky_Relu作为层与层之间的激活函数, 以所有智能体的全局信息以及每个智能 体i的最终策略动作值作为输入, 进而对每个智能体i的策略网络以及leader层网络进 行评 估反馈更新。 7.根据权利要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 所述多 Agent深度强化学习算法在 多Agent系统中, leader层以及评估网络的输入空间随着智能体 个数n线性增长, 所采 取的解决方案是局部模块化以实现leader层及评估层功能, 外加一层权 利 要 求 书 1/2 页 2 CN 113902087 A 2全局的评估网络对局部leader层以及局部 评估层的Q 值进行更新。权 利 要 求 书 2/2 页 3 CN 113902087 A 3

.PDF文档 专利 一种多Agent深度强化学习算法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多Agent深度强化学习算法 第 1 页 专利 一种多Agent深度强化学习算法 第 2 页 专利 一种多Agent深度强化学习算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。