iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111240522.5 (22)申请日 2021.10.25 (71)申请人 吉林建筑大学 地址 130118 吉林省长 春市新城大街5 088 号 (72)发明人 王旭 张宇 郭秀娟 徐勇 尤天舒 富倩 孙伟 刘钢 戴传祗 吴程巍 (74)专利代理 机构 西安合创非凡知识产权代理 事务所(普通 合伙) 61248 代理人 支思迪 (51)Int.Cl. G06N 3/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 20/00(2019.01) (54)发明名称 一种多Agent深度强化学习算法 (57)摘要 本发明公开了一种多Agent深度强化学习算 法, 包括: S1: 学习的策略在执行时只使用本地信 息, 即它们自己的观察结果; S2: 智能体 之间的通 信方法不做任何结构上的假设, 即不假设一个可 区分的通信渠道; S3: leader层网络只输入全局 智能体的状态信息, 只作用于每个智能体的输出 动作值, 并不参与每个智 能体的策略执行, 既保 持每个智能体的独立性, 又保证所有智能体群体 之间的通信。 本发明通过在分布式执行之前加入 集中式预判分配权重, 增强了智能体群体之间的 决策通信, 提高了Leader_MADDPG在多变 的环境 关系中智能体训练过程中的稳定性和训练后的 鲁棒性。 权利要求书2页 说明书7页 附图7页 CN 113902087 A 2022.01.07 CN 113902087 A 1.一种多Agent深度强化学习算法, 其特 征在于, 包括: S1: 学习的策略在执 行时只使用本地信息, 即它 们自己的观察结果; S2: 智能体之间的通信方法不做任何结构上的假设, 即不 假设一个可区分的通信渠道; S3: leader层网络只 输入全局智能体的状态信息, 只作用于每个智能体的输出动作 值, 并不参与每个智能体的策略执行, 既保持每个智能体的独立性, 又保证所有智能体群体之 间的通信。 2.根据权利要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 所述多 Agent深度强化学习算法中智能体i的期望收益的梯度如公式 (1) 所示: (1) 其中 是一个集中的动作值函数, 它将所有智能体的动作 加上一些状态信息x作为输入, 然后输出智能体i的Q值; 智能体可以有任意 的奖励方式, 包括在竞争环境中相互冲突的奖励。 3.根据权利要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 多Agent集 中式leader层的期望收益的梯度更新方式如式 (2) 所示: (2) 其中 是leader网络的参数集合, 为所有智能体策略的 集合。 4.根据权利 要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 对于评估网 络更新, 经验回放缓冲区D包含元组 , 记录了所有智能体的经 验, 集中的评估网络更新方式如式 (3) 所示: (3) 其中 为具有延迟参数 的目标策略集合, 为具有延迟 参数 的目标预判集合。 5.根据权利 要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 策略层神经 网络采用Leaky_Relu和 Tanh作为层与层之间的激活函数, 以智能体i自身的本地信息作为 输入, 输出其对应的策略动作, 与leader层输出当前全局信息下的每个智能体i的策略动作 占比权重值相乘, 作为 最终的策略动作输出值。 6.根据权利 要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 全局评估网 络层采用Leaky_Relu作为层与层之间的激活函数, 以所有智能体的全局信息以及每个智能 体i的最终策略动作值作为输入, 进而对每个智能体i的策略网络以及leader层网络进 行评 估反馈更新。 7.根据权利要求1所述的多Agent深度强化学习算法, 其特征在于, 还包括: 所述多 Agent深度强化学习算法在 多Agent系统中, leader层以及评估网络的输入空间随着智能体 个数n线性增长, 所采 取的解决方案是局部模块化以实现leader层及评估层功能, 外加一层权 利 要 求 书 1/2 页 2 CN 113902087 A 2全局的评估网络对局部leader层以及局部 评估层的Q 值进行更新。权 利 要 求 书 2/2 页 3 CN 113902087 A 3
专利 一种多Agent深度强化学习算法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-19 01:59:57
上传分享
举报
下载
原文档
(888.0 KB)
分享
友情链接
GB-T 42584-2023 信息化项目综合绩效评估规范.pdf
DB23-T 2844—2021 电子政务云平台安全管理规范 黑龙江省.pdf
GB-T 40147-2021 科技评估通则.pdf
GB-T 42381.140-2023 数据质量 第140部分:主数据:特征数据交换:完整性.pdf
信通院 AI框架发展白皮书-2022年.pdf
关键信息基础设施安全保护条例-关基保护条例正式版.pdf
GB-T 10228-2023 干式电力变压器技术参数和要求.pdf
QX-T 109—2021 城镇燃气雷电防护技术规范.pdf
专利 一种API接口安全验证处理方法及装置.PDF
GB-T 32926-2016 信息安全技术 政府部门信息技术服务外包信息安全管理规范.pdf
GB-T 37849-2019 液相色谱飞行时间质谱联用仪性能测定方法.pdf
DB44-T 2328-2021 慢性肾脏病中医健康管理技术规范 广东省.pdf
GB-T 29490-2023 企业知识产权合规管理体系 要求.pdf
GB-T 42029-2022 智能制造 工业数据空间参考模型.pdf
GB-T 37584-2019 钛及钛合金制件热处理.pdf
GB-T 40809-2021 铸造铝合金 半固态流变压铸成形工艺规范.pdf
GB-T 42571-2023 信息安全技术 区块链信息服务安全规范.pdf
GB-T 28827.8-2022 信息技术服务 运行维护 第8部分:医院信息系统管理要求.pdf
DB13-T 1328-2010 混凝土砖及砌体结构技术规范 河北省.pdf
GB-T 30680-2014 氟橡胶板通用技术条件.pdf
1
/
3
17
评价文档
赞助3元 点击下载(888.0 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。