iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111199673.0 (22)申请日 2021.10.14 (71)申请人 车智互联 (北京) 科技有限公司 地址 100080 北京市海淀区丹棱 街3号B座 11层1110、 1111室 (72)发明人 李晨旭 (74)专利代理 机构 北京思睿峰知识产权代理有 限公司 1 1396 代理人 赵爱军 高攀 (51)Int.Cl. G06K 9/62(2006.01) G06N 20/00(2019.01) (54)发明名称 排序模型的训练样 本处理方法、 计算设备以 及存储介质 (57)摘要 本发明公开了一种排序模型的训练样本处 理方法、 计算设备以及存储介质。 方法包括: 从多 个第一正样本和多个第一负样本中删除冲突样 本, 得到主页面样本库; 计算历史投放过程中各 内容类型的内容在首页的展示量占比; 基于展示 量占比对所述多个第二正样本进行下采样处理, 得到预定数目个第二正样本, 作为子页面样本 库; 对主页面样本库和子页面样 本库进行合并去 重, 得到所述 排序模型的训练样本库。 权利要求书1页 说明书9页 附图3页 CN 113902023 A 2022.01.07 CN 113902023 A 1.一种排序模型的训练样本处理方法, 在计算设备中执行, 所述计算设备与数据存储 装置通信连接, 所述数据存储装置中存储有多个第一正样本、 多个第一负样本和多个第二 正样本, 第一正样本为内容在首页展示且被用户点击对应的训练样本, 第一负样本为内容 在首页展示但未被用户点击对应的训练样本, 第二正样本为内容在子页面展示且被用户点 击对应的训练样本, 所述方法包括: 从所述多个第一 正样本和多个第一负 样本中删除冲突样本, 得到主页面样本库; 计算历史 投放过程中各内容类型的内容在首页的展示 量占比; 基于所述展示量占比对所述多个第 二正样本进行下采样处理, 得到预定数目个第 二正 样本, 作为子页面样本库; 对主页面样本库和子页面样本库进行合并去重, 得到所述 排序模型的训练样本库。 2.如权利要求1所述的方法, 其中, 所述冲突样本包括: 与任一个第 一正样本的内容特征和用户特征均相同的第 一负样本, 和/或, 与任一个第 二正样本的内容特 征和用户特 征均相同的第一负 样本。 3.如权利要求1或2所述的方法, 其中, 在对主页面样本库和子页面样本库进行合并去 重之前, 还 包括: 对所述主页面样本库中的第一负 样本进行 过采样处 理。 4.如权利要求3所述的方法, 其中, 所述对所述主页面样本库中的第 一负样本进行过采 样处理, 包括: 从所述主页面样本库所包括的第一负 样本中确定出多个难分负 样本; 对所述多个难分负 样本进行 过采样处 理。 5.如权利要求4所述的方法, 其中, 所述难分负样本为: 内容特征与用户特征相匹配的 负样本。 6.如权利要求3所述的方法, 其中, 所述过采样采用SMOTE采样。 7.如权利要求1至6任一项所述的方法, 其中, 所述预定数目为主页面样本库中正样本 数量的预定比例。 8.如权利要求1至7任一项所述的方法, 其中, 所述内容类型包括如下的至少一个: 长 文、 短文、 视频和游 记。 9.一种计算设备, 包括: 至少一个处 理器; 和 存储有程序指令的存储器, 其中, 所述程序指令被配置为适于由所述至少一个处理器 执行, 所述程序指令包括用于执 行如权利要求1 ‑8中任一项所述方法的指令 。 10.一种存储有程序指令的可读存储介质, 当所述程序指令被计算设备读取并执行时, 使得所述计算设备 执行如权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 113902023 A 2排序模型的训练样本处理 方法、 计算设 备以及存 储介质 技术领域 [0001]本发明涉及互联网领域, 具体涉及一种排序模型的训练样本处理方法、 计算设备 以及存储介质。 背景技术 [0002]随着信息技术和互联网技术的飞速发展, 越来越多的用户通过各种计算设备(如 phone, pad, pc等)获取网络资讯, 另外网络上的各种信息资源也呈爆炸式地增长, 人们逐渐 从信息匮乏的时代走入了信息过 载的时代。 [0003]在这个时代, 无论是信息消费者还是信息生产者都遇到了很大的挑战: 作为信息 消费者, 如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情; 作为信息生产 者, 如何让自己生产的信息脱颖而出, 受到广大用户的关注, 也是一件非常困难的事情。 [0004]鉴于此, 推荐系统, 尤其是个性化推荐应运而生。 它可以根据用户的兴趣特点和行 为, 向用户推荐用户感兴趣的信息和商品。 常规的推荐系统在为用户从海量数据中找到个 性化内容的过程中, 大致上可以分为几个步骤: 召回、 排序、 补充 策略与重排(如增加排序结 果的多样性、 实时性、 流行度和新鲜度等策略)。 其中, 召回和排序阶段都会用到通过机器学 习海量数据生成的排序模型来帮助筛选更适合用户的内容。 这也就意味着, 更好的数据, 排 序模型能够帮助推荐系统给网络信息平台带来更好的用户体验以及更多的流量, 进而产生 更多的收益。 [0005]在智能推荐排序算法的行业内部, 通常流行着这么一句话, 数据决定推荐模型的 上限, 这也是通过千万 企业在千万场景中的实践得出的真知, 通俗理解来看, 把模型想成一 个即将接受教育的小孩, 而海量数据就是要教给他的内容, 那么更好的数据也就意味着更 好的教育, 更出色的成绩。 但是, 推荐系统的数据又是跟实践场景密不可分的, 也就是说我 们没有一个普适的教育方法, 而要因材施教, 这也是在不同推荐场景中构造数据样本的难 点。 这其中又分为对数据样本的特征构造以及数据样本的分布调整, 本发明阐述的技术就 是针对排序阶段, 推荐排序模型训练样本分布的调整优化方法。 [0006]对训练样本的调整优化, 现有技术通常采用基于SMOTE采样方法对正样本上采样。 因为在推荐场景中, 正样本, 即用户点击的内容, 相对于负样本, 即有可见曝光但用户未点 击的内容, 数量上有很大差距, 会造成数据不平衡, 所以一般会采用不同的采样手段来拉近 正负样本的数量差异进而优化模型的学习效果。 这种方法会根据如下公式来生成新的合理 的正样本: [0007]λ*X1+(1 ‑λ )*X2 [0008]其中, X1和X2为随机 选择的两条正样本, λ是一个随机数, 满足Beta分布。 [0009]这样做虽然可以在增加正样本比例的同时尽可能的提高泛化能力, 但是, 也存在 一些缺点: [0010]第一, 在多内容类型(长文、 短文、 视频和游记等)的推荐系统中, 由于是随机选择 的正样本, 在某种意 义上会混合 不同类型内容的相应特 征, 这样做显然不 合理。说 明 书 1/9 页 3 CN 113902023 A 3
专利 排序模型的训练样本处理方法、计算设备以及存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-19 02:02:25
上传分享
举报
下载
原文档
(699.6 KB)
分享
友情链接
GB-T 39044-2020 政务服务平台接入规范.pdf
GA-T 1212-2014 安防人脸识别应用 防假体攻击测试方法.pdf
国家网信办 儿童个人信息网络保护规定 2019.pdf
GB-T 39720-2020 信息安全技术 移动智能终端安全技术要求及测试评价方法.pdf
山东省健康医疗大数据管理办法.pdf
GB-T 13575.1-2022 普通和窄V带传动 第1部分:基准宽度制.pdf
企业软件安全开发实践 培训材料.pdf
JY-T 0580-2020 元素分析仪分析方法通则.pdf
GB-T 25059-2010 信息安全技术 公钥基础设施 简易在线证书状态协议.pdf
SY-T 7657.1-2021 天然气 利用光声光谱-红外光谱-燃料电池联合法测定组成 第1部分:总则.pdf
GB-T 33092-2016 皮带运输机清扫器聚氨酯刮刀.pdf
GB-T 25055-2010 信息安全技术 公钥基础设施安全支撑平台技术框架.pdf
DB13-T 2262-2015 在用工业锅炉节能运行监测技术规程 河北省.pdf
DL-T 5083-2019 水电水利工程预应力锚固施工规范.pdf
GB-T 29070-2012 无损检测 工业计算机层析成像 CT 检测 通用要求.pdf
甲子光年 2024年 AI Agent行业报告.pdf
T-ZSA 37—2020 移动智能终端密码技术政企应用指南.pdf
DB6301-T 4-2023 住宅物业星级服务规范 西宁市.pdf
DB35-T 2134-2023 高辣辣椒栽培技术规程 福建省.pdf
T-LPCX 01—2020 黎平香茶.pdf
1
/
3
14
评价文档
赞助3元 点击下载(699.6 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。