iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111203509.2 (22)申请日 2021.10.15 (71)申请人 燕山大学 地址 066004 河北省秦皇岛市海港区河北 大街438号 (72)发明人 宫继兵 郎月 李学文 (74)专利代理 机构 石家庄众志华清知识产权事 务所(特殊普通 合伙) 13123 代理人 田秀芬 (51)Int.Cl. G06Q 30/06(2012.01) G06F 16/9535(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于强化学习和加权元路径的语义推 荐方法 (57)摘要 本发明公开了一种基于强化学习和加权元 路径的语义推荐方法, 属于推荐算法技术领域, 包括收集用户各类实体属性信息、 获取记录中用 户和物品的异构信息网络, 对提取的记录以及各 类实体属性信息进行预处理并分析, 利用强化学 习算法计算不同元路径的权重, 自主学习不同元 路径的权重, 构建马尔可夫决策过程, 对元路径 的权重进行训练, 得到元路径选择权重的信息并 生成记录, 构建深层决策网络并训练, 设计经验 池、 预测网络和结果网络, 对输出的奖励值进行 拟合得到最佳权重, 依据得到的最佳权重的元路 径, 计算用户 相似度, 并选取Top ‑N进行排列, 完 成推荐。 本发 明能够结合用户的购买记录以及其 他信息进行个性 化推荐, 提高了 推荐的准确性。 权利要求书2页 说明书6页 附图2页 CN 113935804 A 2022.01.14 CN 113935804 A 1.一种基于强化学习和 加权元路径的语义推荐方法, 其特 征在于: 包括以下步骤: S1、 收集用户购买记录、 评分记录、 各类实体属性信息, 获取记录中用户和物品的异构 信息网络; S2、 对S1中收集的用户购买记录、 评分记录以及各类实体属性信息进行预处理, 对数据 清洗, 将处 理好的数据作为后续模型训练的输入; S3、 将S2处理好的数据进行分析, 不同的元路径代表着不同的语义关联信息, 在异构信 息网络中综合考虑实体的属性, 利用不同元路径语义信息度量异构信息网格中用户的相关 性; S4、 利用强化学习算法计算不同元路径的权重, 自主学习不同元路径的权重, 构建马尔 可夫决策过程, 根据数据的特点设计状态、 动作、 环境、 奖励函数, 对元路径的权重进行训 练, 得到元路径选择权 重的信息并生成记录; S5、 基于元路径选择权重的信息记录, 构建深层决策网络, 设计经验池、 预测网络和结 果网络, 对深层决策网络进行训练, 然后对输出的奖励值进行拟合, 得到最佳权 重; S6、 依据得到的最佳权重的元路径, 计算用户相似度, 并选取Top ‑N进行排列, 完成推 荐。 2.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法, 其特征在 于: S2中, 所述数据清洗包括异常数据清洗, 从不同特征角度对收集的用户购买记录、 评分 记录以及各类实体属 性信息进行分析, 对收集的用户购买记录、 评分记录以及各类实体属 性信息进行 特征工程。 3.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法, 其特征在 于: S3中, 具体包括以下步骤: S31、 根据不同元路径将所述异构信息网络分解 为不同的同构子网络; S32、 从所述同构子网络提取 各个记录中用户和物品的语义信息; S33、 根据不同的语义信息度量用户的相似度。 4.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法, 其特征在 于: S4中, 具体包括以下步骤: S41、 构建马尔可 夫决策过程; S411、 定义状态集, 状态为分析选择 出来的初始化元路径的不同权 重, 计算公式为: 其中, 在时刻t之前, 不同元路径的权重有N种选择; S代表状态集, V代表元路径选择不 同权重的次数, n代 表交互记录的时间跨度, p代 表元路径与权 重选择的最大交 互行为; S412、 定义动作集, 动作 为每条元路径选择的不同权重包含用户之间的相似度特征, 公 式为: 其中, at代表动作, Vk代表不同权 重初始序列, 代表交互行为的次数; S413、 定义回报函数, 函数负责计算对当前状态采取动作后得到的奖励值; S414、 定义折扣因子, 代表在训练过程中整个长期的奖励值对当下动作选择的影响, 一权 利 要 求 书 1/2 页 2 CN 113935804 A 2般取值在0~1之间; S42、 决策过程训练出不同元路径所选择的权重的信息, 学习出元路径所占权重最佳的 策略; S43、 将学习过程中累计的选择权 重的经验 存储在经验 池中, 生成经验记录 。 5.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法, 其特征在 于: S5中, 具体包括以下步骤: S51、 设计经验池, 将选择元路径权重时得到的奖励值和新状态存储在经验池中, 即将 状态、 动作、 奖励值和新状态组成的四元组作为经验 池的基本存 储元素, 计算公式为: dk=<st, at, rst, st+1> 其中, dk为学习记录, st为状态数据, at为选取的最优动作, rst为奖励值, st+1代表转移后 的新状态; S52、 设计预测网络, 将状态和动作看作一组作为预测网络的输入, 将这组的奖励值作 为预测网络的输出; S53、 设计结果网络, 将状态转换后的新状态和动作看作一组作为结果网络的输入, 将 这组的奖励值作为结果网络的输出, 计算公式为: 其中, 迭代过程超过一定次数时, 结果网络会更新参数, Qtarget代表新状态选择的最优 动作的预测值, Qreal代表结果值, rs, a代表选择动作a时根据概率进入到下一状态s得到的奖 励值r, γ代表在整个训练过程中整个长期的奖励值对当下动作选择 的影响, a代表最优动 作; S54、 对深层决策网络进行训练; S55、 对输出的奖励值进行拟合, 得到最佳权 重。 6.根据权利要求5所述的一种基于强化学习和加权元路径的语义推荐方法, 其特征在 于: S54中, 具体包括以下步骤: S541、 提取 经验池中累计的经验进行训练, 学习元路径选择权 重的内部策略; S542、 加入预测网络和结果网络双重网络训练最佳状态和最佳动作, 得出奖励值, 计算 公式为: 加入两个网络结构训练, 使计算的奖励 值更加稳定准确, 其中 为训练好的预测网 络的输出值, 为训练好的结果网络的输出值; S543、 根据迭代学习次数, 更新预测网络和结果网络的参数, 并再次生成新的学习经验 和更新参数。权 利 要 求 书 2/2 页 3 CN 113935804 A 3
专利 一种基于强化学习和加权元路径的语义推荐方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-19 01:59:26
上传分享
举报
下载
原文档
(650.2 KB)
分享
友情链接
DB31-T 214-2023 节能产品评审方法和程序 上海市.pdf
GB-T 35218-2017 拖拉机可靠性 台架试验方法.pdf
GB-T 24455-2022 擦手纸.pdf
NY-T 2919-2016 瓜类果斑病防控技术规程.pdf
GB-T 33009.3-2016工业自动化和控制系统网络安全集散控制系统(DCS)第3部分评估指南.pdf
SL-T 813-2021 规划水资源论证技术导则.pdf
GB-T 15843.4-2024 信息技术 安全技术 实体鉴别 第4部分:采用密码校验函数的机制.pdf
DB37-T 4646.2—2023 公共数据 数据治理规范 第2部分:数据清洗比对 山东省.pdf
DB13-T 2338.3-2016 谷子抗病虫性鉴定技术规程 第3部分:白发病 河北省.pdf
奇安信 中国实战化白帽人才能力白皮书.pdf
DB52-T 1124-2016 政府数据资源目录 第1部分:元数据描述规范 贵州省.pdf
T-CNFPIA 3007—2019 超薄高密度纤维板.pdf
GB-T 15780-1995 竹材物理力学性质试验方法.pdf
GB-T 43388-2023 家用汽车产品严重安全性能故障判断指南.pdf
T-CISA 144—2021 含硫氧化铁粉.pdf
GB-T 12763.8-2007 海洋调查规范 第8部分 海洋地质地球物理调查.pdf
T-ZZB 2436—2021 中性墨水用水性色浆.pdf
GB-T 32737-2016 土壤硝态氮的测定 紫外分光光度法.pdf
GB-T 5231-2022 加工铜及铜合金牌号和化学成分.pdf
GB-T 31538-2015 混凝土接缝防水用预埋注浆管.pdf
1
/
3
11
评价文档
赞助3元 点击下载(650.2 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。