iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111199673.0 (22)申请日 2021.10.14 (71)申请人 车智互联 (北京) 科技有限公司 地址 100080 北京市海淀区丹棱 街3号B座 11层1110、 1111室 (72)发明人 李晨旭  (74)专利代理 机构 北京思睿峰知识产权代理有 限公司 1 1396 代理人 赵爱军 高攀 (51)Int.Cl. G06K 9/62(2006.01) G06N 20/00(2019.01) (54)发明名称 排序模型的训练样 本处理方法、 计算设备以 及存储介质 (57)摘要 本发明公开了一种排序模型的训练样本处 理方法、 计算设备以及存储介质。 方法包括: 从多 个第一正样本和多个第一负样本中删除冲突样 本, 得到主页面样本库; 计算历史投放过程中各 内容类型的内容在首页的展示量占比; 基于展示 量占比对所述多个第二正样本进行下采样处理, 得到预定数目个第二正样本, 作为子页面样本 库; 对主页面样本库和子页面样 本库进行合并去 重, 得到所述 排序模型的训练样本库。 权利要求书1页 说明书9页 附图3页 CN 113902023 A 2022.01.07 CN 113902023 A 1.一种排序模型的训练样本处理方法, 在计算设备中执行, 所述计算设备与数据存储 装置通信连接, 所述数据存储装置中存储有多个第一正样本、 多个第一负样本和多个第二 正样本, 第一正样本为内容在首页展示且被用户点击对应的训练样本, 第一负样本为内容 在首页展示但未被用户点击对应的训练样本, 第二正样本为内容在子页面展示且被用户点 击对应的训练样本, 所述方法包括: 从所述多个第一 正样本和多个第一负 样本中删除冲突样本, 得到主页面样本库; 计算历史 投放过程中各内容类型的内容在首页的展示 量占比; 基于所述展示量占比对所述多个第 二正样本进行下采样处理, 得到预定数目个第 二正 样本, 作为子页面样本库; 对主页面样本库和子页面样本库进行合并去重, 得到所述 排序模型的训练样本库。 2.如权利要求1所述的方法, 其中, 所述冲突样本包括: 与任一个第 一正样本的内容特征和用户特征均相同的第 一负样本, 和/或, 与任一个第 二正样本的内容特 征和用户特 征均相同的第一负 样本。 3.如权利要求1或2所述的方法, 其中, 在对主页面样本库和子页面样本库进行合并去 重之前, 还 包括: 对所述主页面样本库中的第一负 样本进行 过采样处 理。 4.如权利要求3所述的方法, 其中, 所述对所述主页面样本库中的第 一负样本进行过采 样处理, 包括: 从所述主页面样本库所包括的第一负 样本中确定出多个难分负 样本; 对所述多个难分负 样本进行 过采样处 理。 5.如权利要求4所述的方法, 其中, 所述难分负样本为: 内容特征与用户特征相匹配的 负样本。 6.如权利要求3所述的方法, 其中, 所述过采样采用SMOTE采样。 7.如权利要求1至6任一项所述的方法, 其中, 所述预定数目为主页面样本库中正样本 数量的预定比例。 8.如权利要求1至7任一项所述的方法, 其中, 所述内容类型包括如下的至少一个: 长 文、 短文、 视频和游 记。 9.一种计算设备, 包括: 至少一个处 理器; 和 存储有程序指令的存储器, 其中, 所述程序指令被配置为适于由所述至少一个处理器 执行, 所述程序指令包括用于执 行如权利要求1 ‑8中任一项所述方法的指令 。 10.一种存储有程序指令的可读存储介质, 当所述程序指令被计算设备读取并执行时, 使得所述计算设备 执行如权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 113902023 A 2排序模型的训练样本处理 方法、 计算设 备以及存 储介质 技术领域 [0001]本发明涉及互联网领域, 具体涉及一种排序模型的训练样本处理方法、 计算设备 以及存储介质。 背景技术 [0002]随着信息技术和互联网技术的飞速发展, 越来越多的用户通过各种计算设备(如 phone, pad, pc等)获取网络资讯, 另外网络上的各种信息资源也呈爆炸式地增长, 人们逐渐 从信息匮乏的时代走入了信息过 载的时代。 [0003]在这个时代, 无论是信息消费者还是信息生产者都遇到了很大的挑战: 作为信息 消费者, 如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情; 作为信息生产 者, 如何让自己生产的信息脱颖而出, 受到广大用户的关注, 也是一件非常困难的事情。 [0004]鉴于此, 推荐系统, 尤其是个性化推荐应运而生。 它可以根据用户的兴趣特点和行 为, 向用户推荐用户感兴趣的信息和商品。 常规的推荐系统在为用户从海量数据中找到个 性化内容的过程中, 大致上可以分为几个步骤: 召回、 排序、 补充 策略与重排(如增加排序结 果的多样性、 实时性、 流行度和新鲜度等策略)。 其中, 召回和排序阶段都会用到通过机器学 习海量数据生成的排序模型来帮助筛选更适合用户的内容。 这也就意味着, 更好的数据, 排 序模型能够帮助推荐系统给网络信息平台带来更好的用户体验以及更多的流量, 进而产生 更多的收益。 [0005]在智能推荐排序算法的行业内部, 通常流行着这么一句话, 数据决定推荐模型的 上限, 这也是通过千万 企业在千万场景中的实践得出的真知, 通俗理解来看, 把模型想成一 个即将接受教育的小孩, 而海量数据就是要教给他的内容, 那么更好的数据也就意味着更 好的教育, 更出色的成绩。 但是, 推荐系统的数据又是跟实践场景密不可分的, 也就是说我 们没有一个普适的教育方法, 而要因材施教, 这也是在不同推荐场景中构造数据样本的难 点。 这其中又分为对数据样本的特征构造以及数据样本的分布调整, 本发明阐述的技术就 是针对排序阶段, 推荐排序模型训练样本分布的调整优化方法。 [0006]对训练样本的调整优化, 现有技术通常采用基于SMOTE采样方法对正样本上采样。 因为在推荐场景中, 正样本, 即用户点击的内容, 相对于负样本, 即有可见曝光但用户未点 击的内容, 数量上有很大差距, 会造成数据不平衡, 所以一般会采用不同的采样手段来拉近 正负样本的数量差异进而优化模型的学习效果。 这种方法会根据如下公式来生成新的合理 的正样本: [0007]λ*X1+(1 ‑λ )*X2 [0008]其中, X1和X2为随机 选择的两条正样本, λ是一个随机数, 满足Beta分布。 [0009]这样做虽然可以在增加正样本比例的同时尽可能的提高泛化能力, 但是, 也存在 一些缺点: [0010]第一, 在多内容类型(长文、 短文、 视频和游记等)的推荐系统中, 由于是随机选择 的正样本, 在某种意 义上会混合 不同类型内容的相应特 征, 这样做显然不 合理。说 明 书 1/9 页 3 CN 113902023 A 3

.PDF文档 专利 排序模型的训练样本处理方法、计算设备以及存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 排序模型的训练样本处理方法、计算设备以及存储介质 第 1 页 专利 排序模型的训练样本处理方法、计算设备以及存储介质 第 2 页 专利 排序模型的训练样本处理方法、计算设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:02:25上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。