专利 基于动作剪枝的推荐方法、装置、电子设备与存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111185124.8 (22)申请日 2021.10.12 (65)同一申请的已公布的文献号申请公布号 CN 113626720 A (43)申请公布日 2021.11.09 (73)专利权人中国科学院自动化研究所地址 100190 北京市海淀区中关村东路95 号 (72)发明人张俊格　白栋栋　黄凯奇　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 代理人吴刚 (51)Int.Cl. G06F 16/9535(2019.01) G06N 20/00(2019.01)(56)对比文件 CN 111986005 A,2020.1 1.24 CN 110404265 A,2019.1 1.05 CN 112149824 A,2020.12.2 9 CN 111476639 A,2020.07.31 US 2016239738 A1,2016.08.18 审查员李萌 (54)发明名称基于动作剪枝的推荐方法、装置、电子设备与存储介质 (57)摘要本发明提供一种基于动作剪枝的推荐方法、装置、电子设备与存储介质，包括：基于目标用户的用户特征和各待推荐内容的内容特征，确定各待推荐内容对应的状态；基于各待推荐内容对应的状态和评分预测模型，预测各待推荐内容的评分，并基于各待推荐内容的评分，向目标用户进行推荐；评分预测模型是强化学习得到的，在强化学习过程中，评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值，并基于遗憾值大于预设阈值的候选评分进行评分预测，遗憾值集合存储有历史状态及其对应的遗憾值，遗憾值基于历史状态下各候选评分的优势确定，历史状态是在当前样本状态之前的样本状态，加快强化学习的收敛速度，实现对用户进行个性化的精确推荐。权利要求书2页说明书13页附图4页 CN 113626720 B 2022.02.25 CN 113626720 B 1.一种基于动作剪枝的推荐方法，其特征在于，包括：基于目标用户的用户特征和各待推荐内容的内容特征，确定各待推荐内容对应的状态；基于所述各待推荐内容对应的状态和评分预测模型，预测所述各待推荐内容的评分，并基于所述各待推荐内容的评分，向所述目标用户进行推荐；其中，所述评分预测模型是基于样本内容对应的样本状态进行强化学习得到的；在强化学习过程中，所述评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值，并基于遗憾值大于预设阈值的候选评分进行评分预测，所述遗憾值集合存储有历史状态及其对应的遗憾值，所述遗憾值基于所述历史状态下各候选评分的优势确定，所述历史状态是在所述当前样本状态之前的样本状态；所述评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值，并基于遗憾值大于预设阈值的候选评分进行评分预测，包括：在所述遗憾值集合中查询所述当前样本状态；若所述遗憾值集合中存在所述当前样本状态，则所述评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值，并基于遗憾值大于预设阈值的候选评分进行评分预测；否则，则所述评分预测模型在所述遗憾值集合中添加所述当前样本状态下各候选评分的遗憾值，将添加的各候选评分的遗憾值设置为初始值，并基于所述各候选评分进行评分预测。 2.根据权利要求1所述的基于动作剪枝的推荐方法，其特征在于，所述评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值，并基于遗憾值大于预设阈值的候选评分进行评分预测，之后还包括：所述评分预测模型基于所述当前样本状态下所述各候选评分的优势，确定各候选评分的当前遗憾值，并基于所述各候选评分的当前遗憾值，更新所述遗憾值集合中所述当前样本状态对应的各遗憾值。 3.根据权利要求2所述的基于动作剪枝的推荐方法，其特征在于，所述基于所述各候选评分的当前遗憾值，更新所述遗憾值集合中所述当前样本状态对应的各遗憾值，包括：若所述遗憾值集合中所述当前样本状态下任一候选评分的遗憾值大于预设阈值，则将所述任一候选评分的遗憾值与所述任一候选评分的当前遗憾值进行叠加，得到更新后的所述任一候选评分的遗憾值；若所述遗憾值集合中所述当前样本状态下任一候选评分的遗憾值小于等于预设阈值，则不更新所述任一候选评分的遗憾值。 4.根据权利要求1所述的基于动作剪枝的推荐方法，其特征在于，所述基于遗憾值大于预设阈值的候选评分进行评分预测，包括：基于所述当前样本状态的价值以及所述当前样本状态下各当前候选评分的优势，确定所述当前样本状态下各当前候选评分的价值，所述当前候选评分为所述遗憾值大于预设阈值的候选评分；将所述各当前候选评分的价值中最大值对应的当前候选评分作为当前评分。 5.根据权利要求1所述的基于动作剪枝的推荐方法，其特征在于，所述遗憾值是基于如权　利　要　求　书 1/2 页 2 CN 113626720 B 2下公式确定的：其中，为所述历史状态下第个候选评分的遗憾值，为所述历史状态的价值，为所述历史状态下第个候选评分的优势，为所述历史状态，为所述第个候选评分。 6.一种基于动作剪枝的推荐装置，其特征在于，包括：确定模块，用于基于目标用户的用户特征和各待推荐内容的内容特征，确定各待推荐内容对应的状态；推荐模块，用于基于所述各待推荐内容对应的状态和评分预测模型，预测所述各待推荐内容的评分，并基于所述各待推荐内容的评分，向所述目标用户进行推荐；其中，所述评分预测模型是基于样本内容对应的样本状态进行强化学习得到的；在强化学习过程中，所述评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值，并基于遗憾值大于预设阈值的候选评分进行评分预测，所述遗憾值集合存储有历史状态及其对应的遗憾值，所述遗憾值基于所述历史状态下各候选评分的优势确定，所述历史状态是在所述当前样本状态之前的样本状态；所述评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值，并基于遗憾值大于预设阈值的候选评分进行评分预测，包括：在所述遗憾值集合中查询所述当前样本状态；若所述遗憾值集合中存在所述当前样本状态，则所述评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值，并基于遗憾值大于预设阈值的候选评分进行评分预测；否则，则所述评分预测模型在所述遗憾值集合中添加所述当前样本状态下各候选评分的遗憾值，将添加的各候选评分的遗憾值设置为初始值，并基于所述各候选评分进行评分预测。 7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述基于动作剪枝的推荐方法的步骤。 8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至 5任一项所述基于动作剪枝的推荐方法的步骤。 9.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至 5任一项所述基于动作剪枝的推荐方法的步骤。权　利　要　求　书 2/2 页 3 CN 113626720 B 3

专利 基于动作剪枝的推荐方法、装置、电子设备与存储介质

专利基于动作剪枝的推荐方法、装置、电子设备与存储介质