专利 排序模型的训练样本处理方法、计算设备以及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111199673.0 (22)申请日 2021.10.14 (71)申请人车智互联（北京）科技有限公司地址 100080 北京市海淀区丹棱街3号B座 11层1110、 1111室 (72)发明人李晨旭　 (74)专利代理机构北京思睿峰知识产权代理有限公司 1 1396 代理人赵爱军　高攀 (51)Int.Cl. G06K 9/62(2006.01) G06N 20/00(2019.01) (54)发明名称排序模型的训练样本处理方法、计算设备以及存储介质 (57)摘要本发明公开了一种排序模型的训练样本处理方法、计算设备以及存储介质。方法包括：从多个第一正样本和多个第一负样本中删除冲突样本，得到主页面样本库；计算历史投放过程中各内容类型的内容在首页的展示量占比；基于展示量占比对所述多个第二正样本进行下采样处理，得到预定数目个第二正样本，作为子页面样本库；对主页面样本库和子页面样本库进行合并去重，得到所述排序模型的训练样本库。权利要求书1页说明书9页附图3页 CN 113902023 A 2022.01.07 CN 113902023 A 1.一种排序模型的训练样本处理方法，在计算设备中执行，所述计算设备与数据存储装置通信连接，所述数据存储装置中存储有多个第一正样本、多个第一负样本和多个第二正样本，第一正样本为内容在首页展示且被用户点击对应的训练样本，第一负样本为内容在首页展示但未被用户点击对应的训练样本，第二正样本为内容在子页面展示且被用户点击对应的训练样本，所述方法包括：从所述多个第一正样本和多个第一负样本中删除冲突样本，得到主页面样本库；计算历史投放过程中各内容类型的内容在首页的展示量占比；基于所述展示量占比对所述多个第二正样本进行下采样处理，得到预定数目个第二正样本，作为子页面样本库；对主页面样本库和子页面样本库进行合并去重，得到所述排序模型的训练样本库。 2.如权利要求1所述的方法，其中，所述冲突样本包括：与任一个第一正样本的内容特征和用户特征均相同的第一负样本，和/或，与任一个第二正样本的内容特征和用户特征均相同的第一负样本。 3.如权利要求1或2所述的方法，其中，在对主页面样本库和子页面样本库进行合并去重之前，还包括：对所述主页面样本库中的第一负样本进行过采样处理。 4.如权利要求3所述的方法，其中，所述对所述主页面样本库中的第一负样本进行过采样处理，包括：从所述主页面样本库所包括的第一负样本中确定出多个难分负样本；对所述多个难分负样本进行过采样处理。 5.如权利要求4所述的方法，其中，所述难分负样本为：内容特征与用户特征相匹配的负样本。 6.如权利要求3所述的方法，其中，所述过采样采用SMOTE采样。 7.如权利要求1至6任一项所述的方法，其中，所述预定数目为主页面样本库中正样本数量的预定比例。 8.如权利要求1至7任一项所述的方法，其中，所述内容类型包括如下的至少一个：长文、短文、视频和游记。 9.一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1 ‑8中任一项所述方法的指令。 10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1 ‑8中任一项所述的方法。权　利　要　求　书 1/1 页 2 CN 113902023 A 2排序模型的训练样本处理方法、计算设备以及存储介质技术领域 [0001]本发明涉及互联网领域，具体涉及一种排序模型的训练样本处理方法、计算设备以及存储介质。背景技术 [0002]随着信息技术和互联网技术的飞速发展，越来越多的用户通过各种计算设备(如 phone， pad， pc等)获取网络资讯，另外网络上的各种信息资源也呈爆炸式地增长，人们逐渐从信息匮乏的时代走入了信息过载的时代。 [0003]在这个时代，无论是信息消费者还是信息生产者都遇到了很大的挑战：作为信息消费者，如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情；作为信息生产者，如何让自己生产的信息脱颖而出，受到广大用户的关注，也是一件非常困难的事情。 [0004]鉴于此，推荐系统，尤其是个性化推荐应运而生。它可以根据用户的兴趣特点和行为，向用户推荐用户感兴趣的信息和商品。常规的推荐系统在为用户从海量数据中找到个性化内容的过程中，大致上可以分为几个步骤：召回、排序、补充策略与重排(如增加排序结果的多样性、实时性、流行度和新鲜度等策略)。其中，召回和排序阶段都会用到通过机器学习海量数据生成的排序模型来帮助筛选更适合用户的内容。这也就意味着，更好的数据，排序模型能够帮助推荐系统给网络信息平台带来更好的用户体验以及更多的流量，进而产生更多的收益。 [0005]在智能推荐排序算法的行业内部，通常流行着这么一句话，数据决定推荐模型的上限，这也是通过千万企业在千万场景中的实践得出的真知，通俗理解来看，把模型想成一个即将接受教育的小孩，而海量数据就是要教给他的内容，那么更好的数据也就意味着更好的教育，更出色的成绩。但是，推荐系统的数据又是跟实践场景密不可分的，也就是说我们没有一个普适的教育方法，而要因材施教，这也是在不同推荐场景中构造数据样本的难点。这其中又分为对数据样本的特征构造以及数据样本的分布调整，本发明阐述的技术就是针对排序阶段，推荐排序模型训练样本分布的调整优化方法。 [0006]对训练样本的调整优化，现有技术通常采用基于SMOTE采样方法对正样本上采样。因为在推荐场景中，正样本，即用户点击的内容，相对于负样本，即有可见曝光但用户未点击的内容，数量上有很大差距，会造成数据不平衡，所以一般会采用不同的采样手段来拉近正负样本的数量差异进而优化模型的学习效果。这种方法会根据如下公式来生成新的合理的正样本： [0007]λ*X1+(1 ‑λ )*X2 [0008]其中， X1和X2为随机选择的两条正样本， λ是一个随机数，满足Beta分布。 [0009]这样做虽然可以在增加正样本比例的同时尽可能的提高泛化能力，但是，也存在一些缺点： [0010]第一，在多内容类型(长文、短文、视频和游记等)的推荐系统中，由于是随机选择的正样本，在某种意义上会混合不同类型内容的相应特征，这样做显然不合理。说　明　书 1/9 页 3 CN 113902023 A 3

专利 排序模型的训练样本处理方法、计算设备以及存储介质

专利排序模型的训练样本处理方法、计算设备以及存储介质