iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111203509.2 (22)申请日 2021.10.15 (71)申请人 燕山大学 地址 066004 河北省秦皇岛市海港区河北 大街438号 (72)发明人 宫继兵 郎月 李学文  (74)专利代理 机构 石家庄众志华清知识产权事 务所(特殊普通 合伙) 13123 代理人 田秀芬 (51)Int.Cl. G06Q 30/06(2012.01) G06F 16/9535(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于强化学习和加权元路径的语义推 荐方法 (57)摘要 本发明公开了一种基于强化学习和加权元 路径的语义推荐方法, 属于推荐算法技术领域, 包括收集用户各类实体属性信息、 获取记录中用 户和物品的异构信息网络, 对提取的记录以及各 类实体属性信息进行预处理并分析, 利用强化学 习算法计算不同元路径的权重, 自主学习不同元 路径的权重, 构建马尔可夫决策过程, 对元路径 的权重进行训练, 得到元路径选择权重的信息并 生成记录, 构建深层决策网络并训练, 设计经验 池、 预测网络和结果网络, 对输出的奖励值进行 拟合得到最佳权重, 依据得到的最佳权重的元路 径, 计算用户 相似度, 并选取Top ‑N进行排列, 完 成推荐。 本发 明能够结合用户的购买记录以及其 他信息进行个性 化推荐, 提高了 推荐的准确性。 权利要求书2页 说明书6页 附图2页 CN 113935804 A 2022.01.14 CN 113935804 A 1.一种基于强化学习和 加权元路径的语义推荐方法, 其特 征在于: 包括以下步骤: S1、 收集用户购买记录、 评分记录、 各类实体属性信息, 获取记录中用户和物品的异构 信息网络; S2、 对S1中收集的用户购买记录、 评分记录以及各类实体属性信息进行预处理, 对数据 清洗, 将处 理好的数据作为后续模型训练的输入; S3、 将S2处理好的数据进行分析, 不同的元路径代表着不同的语义关联信息, 在异构信 息网络中综合考虑实体的属性, 利用不同元路径语义信息度量异构信息网格中用户的相关 性; S4、 利用强化学习算法计算不同元路径的权重, 自主学习不同元路径的权重, 构建马尔 可夫决策过程, 根据数据的特点设计状态、 动作、 环境、 奖励函数, 对元路径的权重进行训 练, 得到元路径选择权 重的信息并生成记录; S5、 基于元路径选择权重的信息记录, 构建深层决策网络, 设计经验池、 预测网络和结 果网络, 对深层决策网络进行训练, 然后对输出的奖励值进行拟合, 得到最佳权 重; S6、 依据得到的最佳权重的元路径, 计算用户相似度, 并选取Top ‑N进行排列, 完成推 荐。 2.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法, 其特征在 于: S2中, 所述数据清洗包括异常数据清洗, 从不同特征角度对收集的用户购买记录、 评分 记录以及各类实体属 性信息进行分析, 对收集的用户购买记录、 评分记录以及各类实体属 性信息进行 特征工程。 3.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法, 其特征在 于: S3中, 具体包括以下步骤: S31、 根据不同元路径将所述异构信息网络分解 为不同的同构子网络; S32、 从所述同构子网络提取 各个记录中用户和物品的语义信息; S33、 根据不同的语义信息度量用户的相似度。 4.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法, 其特征在 于: S4中, 具体包括以下步骤: S41、 构建马尔可 夫决策过程; S411、 定义状态集, 状态为分析选择 出来的初始化元路径的不同权 重, 计算公式为: 其中, 在时刻t之前, 不同元路径的权重有N种选择; S代表状态集, V代表元路径选择不 同权重的次数, n代 表交互记录的时间跨度, p代 表元路径与权 重选择的最大交 互行为; S412、 定义动作集, 动作 为每条元路径选择的不同权重包含用户之间的相似度特征, 公 式为: 其中, at代表动作, Vk代表不同权 重初始序列, 代表交互行为的次数; S413、 定义回报函数, 函数负责计算对当前状态采取动作后得到的奖励值; S414、 定义折扣因子, 代表在训练过程中整个长期的奖励值对当下动作选择的影响, 一权 利 要 求 书 1/2 页 2 CN 113935804 A 2般取值在0~1之间; S42、 决策过程训练出不同元路径所选择的权重的信息, 学习出元路径所占权重最佳的 策略; S43、 将学习过程中累计的选择权 重的经验 存储在经验 池中, 生成经验记录 。 5.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法, 其特征在 于: S5中, 具体包括以下步骤: S51、 设计经验池, 将选择元路径权重时得到的奖励值和新状态存储在经验池中, 即将 状态、 动作、 奖励值和新状态组成的四元组作为经验 池的基本存 储元素, 计算公式为: dk=<st, at, rst, st+1> 其中, dk为学习记录, st为状态数据, at为选取的最优动作, rst为奖励值, st+1代表转移后 的新状态; S52、 设计预测网络, 将状态和动作看作一组作为预测网络的输入, 将这组的奖励值作 为预测网络的输出; S53、 设计结果网络, 将状态转换后的新状态和动作看作一组作为结果网络的输入, 将 这组的奖励值作为结果网络的输出, 计算公式为: 其中, 迭代过程超过一定次数时, 结果网络会更新参数, Qtarget代表新状态选择的最优 动作的预测值, Qreal代表结果值, rs, a代表选择动作a时根据概率进入到下一状态s得到的奖 励值r, γ代表在整个训练过程中整个长期的奖励值对当下动作选择 的影响, a代表最优动 作; S54、 对深层决策网络进行训练; S55、 对输出的奖励值进行拟合, 得到最佳权 重。 6.根据权利要求5所述的一种基于强化学习和加权元路径的语义推荐方法, 其特征在 于: S54中, 具体包括以下步骤: S541、 提取 经验池中累计的经验进行训练, 学习元路径选择权 重的内部策略; S542、 加入预测网络和结果网络双重网络训练最佳状态和最佳动作, 得出奖励值, 计算 公式为: 加入两个网络结构训练, 使计算的奖励 值更加稳定准确, 其中 为训练好的预测网 络的输出值, 为训练好的结果网络的输出值; S543、 根据迭代学习次数, 更新预测网络和结果网络的参数, 并再次生成新的学习经验 和更新参数。权 利 要 求 书 2/2 页 3 CN 113935804 A 3

.PDF文档 专利 一种基于强化学习和加权元路径的语义推荐方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习和加权元路径的语义推荐方法 第 1 页 专利 一种基于强化学习和加权元路径的语义推荐方法 第 2 页 专利 一种基于强化学习和加权元路径的语义推荐方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。