专利 一种基于强化学习和加权元路径的语义推荐方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111203509.2 (22)申请日 2021.10.15 (71)申请人燕山大学地址 066004 河北省秦皇岛市海港区河北大街438号 (72)发明人宫继兵　郎月　李学文　 (74)专利代理机构石家庄众志华清知识产权事务所(特殊普通合伙) 13123 代理人田秀芬 (51)Int.Cl. G06Q 30/06(2012.01) G06F 16/9535(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于强化学习和加权元路径的语义推荐方法 (57)摘要本发明公开了一种基于强化学习和加权元路径的语义推荐方法，属于推荐算法技术领域，包括收集用户各类实体属性信息、获取记录中用户和物品的异构信息网络，对提取的记录以及各类实体属性信息进行预处理并分析，利用强化学习算法计算不同元路径的权重，自主学习不同元路径的权重，构建马尔可夫决策过程，对元路径的权重进行训练，得到元路径选择权重的信息并生成记录，构建深层决策网络并训练，设计经验池、预测网络和结果网络，对输出的奖励值进行拟合得到最佳权重，依据得到的最佳权重的元路径，计算用户相似度，并选取Top ‑N进行排列，完成推荐。本发明能够结合用户的购买记录以及其他信息进行个性化推荐，提高了推荐的准确性。权利要求书2页说明书6页附图2页 CN 113935804 A 2022.01.14 CN 113935804 A 1.一种基于强化学习和加权元路径的语义推荐方法，其特征在于：包括以下步骤： S1、收集用户购买记录、评分记录、各类实体属性信息，获取记录中用户和物品的异构信息网络； S2、对S1中收集的用户购买记录、评分记录以及各类实体属性信息进行预处理，对数据清洗，将处理好的数据作为后续模型训练的输入； S3、将S2处理好的数据进行分析，不同的元路径代表着不同的语义关联信息，在异构信息网络中综合考虑实体的属性，利用不同元路径语义信息度量异构信息网格中用户的相关性； S4、利用强化学习算法计算不同元路径的权重，自主学习不同元路径的权重，构建马尔可夫决策过程，根据数据的特点设计状态、动作、环境、奖励函数，对元路径的权重进行训练，得到元路径选择权重的信息并生成记录； S5、基于元路径选择权重的信息记录，构建深层决策网络，设计经验池、预测网络和结果网络，对深层决策网络进行训练，然后对输出的奖励值进行拟合，得到最佳权重； S6、依据得到的最佳权重的元路径，计算用户相似度，并选取Top ‑N进行排列，完成推荐。 2.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法，其特征在于： S2中，所述数据清洗包括异常数据清洗，从不同特征角度对收集的用户购买记录、评分记录以及各类实体属性信息进行分析，对收集的用户购买记录、评分记录以及各类实体属性信息进行特征工程。 3.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法，其特征在于： S3中，具体包括以下步骤： S31、根据不同元路径将所述异构信息网络分解为不同的同构子网络； S32、从所述同构子网络提取各个记录中用户和物品的语义信息； S33、根据不同的语义信息度量用户的相似度。 4.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法，其特征在于： S4中，具体包括以下步骤： S41、构建马尔可夫决策过程； S411、定义状态集，状态为分析选择出来的初始化元路径的不同权重，计算公式为：其中，在时刻t之前，不同元路径的权重有N种选择； S代表状态集， V代表元路径选择不同权重的次数， n代表交互记录的时间跨度， p代表元路径与权重选择的最大交互行为； S412、定义动作集，动作为每条元路径选择的不同权重包含用户之间的相似度特征，公式为：其中， at代表动作， Vk代表不同权重初始序列，代表交互行为的次数； S413、定义回报函数，函数负责计算对当前状态采取动作后得到的奖励值； S414、定义折扣因子，代表在训练过程中整个长期的奖励值对当下动作选择的影响，一权　利　要　求　书 1/2 页 2 CN 113935804 A 2般取值在0～1之间； S42、决策过程训练出不同元路径所选择的权重的信息，学习出元路径所占权重最佳的策略； S43、将学习过程中累计的选择权重的经验存储在经验池中，生成经验记录。 5.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法，其特征在于： S5中，具体包括以下步骤： S51、设计经验池，将选择元路径权重时得到的奖励值和新状态存储在经验池中，即将状态、动作、奖励值和新状态组成的四元组作为经验池的基本存储元素，计算公式为： dk＝<st， at， rst， st+1> 其中， dk为学习记录， st为状态数据， at为选取的最优动作， rst为奖励值， st+1代表转移后的新状态； S52、设计预测网络，将状态和动作看作一组作为预测网络的输入，将这组的奖励值作为预测网络的输出； S53、设计结果网络，将状态转换后的新状态和动作看作一组作为结果网络的输入，将这组的奖励值作为结果网络的输出，计算公式为：其中，迭代过程超过一定次数时，结果网络会更新参数， Qtarget代表新状态选择的最优动作的预测值， Qreal代表结果值， rs， a代表选择动作a时根据概率进入到下一状态s得到的奖励值r， γ代表在整个训练过程中整个长期的奖励值对当下动作选择的影响， a代表最优动作； S54、对深层决策网络进行训练； S55、对输出的奖励值进行拟合，得到最佳权重。 6.根据权利要求5所述的一种基于强化学习和加权元路径的语义推荐方法，其特征在于： S54中，具体包括以下步骤： S541、提取经验池中累计的经验进行训练，学习元路径选择权重的内部策略； S542、加入预测网络和结果网络双重网络训练最佳状态和最佳动作，得出奖励值，计算公式为：加入两个网络结构训练，使计算的奖励值更加稳定准确，其中为训练好的预测网络的输出值，为训练好的结果网络的输出值； S543、根据迭代学习次数，更新预测网络和结果网络的参数，并再次生成新的学习经验和更新参数。权　利　要　求　书 2/2 页 3 CN 113935804 A 3

专利 一种基于强化学习和加权元路径的语义推荐方法

专利一种基于强化学习和加权元路径的语义推荐方法