(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111185124.8
(22)申请日 2021.10.12
(65)同一申请的已公布的文献号
申请公布号 CN 113626720 A
(43)申请公布日 2021.11.09
(73)专利权人 中国科学院自动化研究所
地址 100190 北京市海淀区中关村东路95
号
(72)发明人 张俊格 白栋栋 黄凯奇
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
代理人 吴刚
(51)Int.Cl.
G06F 16/9535(2019.01)
G06N 20/00(2019.01)(56)对比文件
CN 111986005 A,2020.1 1.24
CN 110404265 A,2019.1 1.05
CN 112149824 A,2020.12.2 9
CN 111476639 A,2020.07.31
US 2016239738 A1,2016.08.18
审查员 李萌
(54)发明名称
基于动作剪枝的推荐方法、 装置、 电子设备
与存储介质
(57)摘要
本发明提供一种基于动作剪枝的推荐 方法、
装置、 电子设备与存储介质, 包括: 基于目标用户
的用户特征和各待推荐内容的内容特征, 确定各
待推荐内容对应的状态; 基于各待推荐内容对应
的状态和评分预测模型, 预测各待推荐内容的评
分, 并基于各待推荐内容的评分, 向目标用户进
行推荐; 评分预测模型是强化学习得到的, 在强
化学习过程中, 评分预测模型从遗憾 值集合中获
取当前样 本状态下各候选评分的遗憾 值, 并基于
遗憾值大于预设阈值的候选评分进行评分预测,
遗憾值集合存储有历史状态及其对应的遗憾值,
遗憾值基于历史状态下各候选评分的优势确定,
历史状态是在当前样本状态之前的样本状态, 加
快强化学习的收敛速度, 实现对用户进行个性化
的精确推荐。
权利要求书2页 说明书13页 附图4页
CN 113626720 B
2022.02.25
CN 113626720 B
1.一种基于动作剪枝的推荐方法, 其特 征在于, 包括:
基于目标用户的用户特征和各待推荐内容的内容特征, 确定各待推荐内容对应的状
态;
基于所述各待推荐内容对应的状态和评分预测模型, 预测所述各待推荐内容的评分,
并基于所述各待推荐内容的评分, 向所述目标用户进行推荐;
其中, 所述评分预测模型是基于样本内容对应的样本状态进行强化学习得到的; 在强
化学习过程中, 所述评 分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾
值, 并基于遗憾值大于预设阈值的候选评分进行评分预测, 所述遗憾值集合存储有历史状
态及其对应的遗憾值, 所述遗憾值基于所述历史状态下各候选评分的优势确定, 所述历史
状态是在所述当前样本状态之前的样本状态;
所述评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值, 并基于
遗憾值大于预设阈值的候选 评分进行评分预测, 包括:
在所述遗憾值 集合中查询所述当前样本状态;
若所述遗憾值集合中存在所述当前样本状态, 则所述评分预测模型从遗憾值集合中获
取当前样本状态下各候选评 分的遗憾值, 并基于遗憾值大于预设阈值的候选评 分进行评分
预测;
否则, 则所述评分预测模型在所述遗憾值集合中添加所述当前样本状态下各候选评分
的遗憾值, 将添加的各候选评分的遗憾值设置为初始值, 并基于所述各候选评分进行评分
预测。
2.根据权利要求1所述的基于动作剪枝的推荐方法, 其特征在于, 所述评分预测模型从
遗憾值集合中获取当前样本状态下各候选评分的遗憾值, 并基于遗憾值大于预设阈值的候
选评分进行评分预测, 之后还 包括:
所述评分预测模型基于所述当前样本状态下所述各候选评分的优势, 确定各候选评分
的当前遗憾值, 并基于所述各候选评分的当前遗憾值, 更新所述遗憾值集合中所述当前样
本状态对应的各遗憾值。
3.根据权利要求2所述的基于动作剪枝的推荐方法, 其特征在于, 所述基于所述各候选
评分的当前遗憾值, 更新所述遗憾值 集合中所述当前样本状态对应的各遗憾值, 包括:
若所述遗憾值集合中所述当前样本状态下任一候选评分的遗憾值大于预设阈值, 则将
所述任一候选评分的遗憾值与所述任一候选评 分的当前遗憾值进 行叠加, 得到更新后的所
述任一候选评分的遗憾值;
若所述遗憾值集合中所述当前样本状态下任一候选评分的遗憾值小于等于预设阈值,
则不更新所述任一 候选评分的遗憾值。
4.根据权利要求1所述的基于动作剪枝的推荐方法, 其特征在于, 所述基于遗憾值大于
预设阈值的候选 评分进行评分预测, 包括:
基于所述当前样本状态的价值以及所述当前样本状态下各当前候选评分的优势, 确定
所述当前样本状态下各当前候选评 分的价值, 所述当前候选评 分为所述遗憾值大于预设阈
值的候选 评分;
将所述各当前候选 评分的价 值中最大值对应的当前候选 评分作为当前评分。
5.根据权利要求1所述的基于动作剪枝的推荐方法, 其特征在于, 所述遗憾值是基于如权 利 要 求 书 1/2 页
2
CN 113626720 B
2下公式确定的:
其中,
为所述历史状态下第
个候选评分的遗憾值,
为所述历史状态的价
值,
为所述历史状态下第
个候选评分的优势,
为所述历史状态,
为所述第
个
候选评分。
6.一种基于动作剪枝的推荐装置, 其特 征在于, 包括:
确定模块, 用于基于目标用户的用户特征和各待推荐内容的内容特征, 确定各待推荐
内容对应的状态;
推荐模块, 用于基于所述各待推荐内容对应的状态和评分预测模型, 预测所述各待推
荐内容的评分, 并基于所述各待推荐内容的评分, 向所述目标用户进行推荐;
其中, 所述评分预测模型是基于样本内容对应的样本状态进行强化学习得到的; 在强
化学习过程中, 所述评 分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾
值, 并基于遗憾值大于预设阈值的候选评分进行评分预测, 所述遗憾值集合存储有历史状
态及其对应的遗憾值, 所述遗憾值基于所述历史状态下各候选评分的优势确定, 所述历史
状态是在所述当前样本状态之前的样本状态;
所述评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值, 并基于
遗憾值大于预设阈值的候选 评分进行评分预测, 包括:
在所述遗憾值 集合中查询所述当前样本状态;
若所述遗憾值集合中存在所述当前样本状态, 则所述评分预测模型从遗憾值集合中获
取当前样本状态下各候选评 分的遗憾值, 并基于遗憾值大于预设阈值的候选评 分进行评分
预测;
否则, 则所述评分预测模型在所述遗憾值集合中添加所述当前样本状态下各候选评分
的遗憾值, 将添加的各候选评分的遗憾值设置为初始值, 并基于所述各候选评分进行评分
预测。
7.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至5任一项所
述基于动作剪枝的推荐方法的步骤。
8.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机
程序被处 理器执行时实现如权利要求1至 5任一项所述基于动作剪枝的推荐方法的步骤。
9.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执行
时实现如权利要求1至 5任一项所述基于动作剪枝的推荐方法的步骤。权 利 要 求 书 2/2 页
3
CN 113626720 B
3
专利 基于动作剪枝的推荐方法、装置、电子设备与存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:01:47上传分享