iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111222505.9 (22)申请日 2021.10.20 (71)申请人 北京淇瑀信息科技有限公司 地址 100012 北京市朝阳区双营路1 1号院3 号楼2层4单元207 (72)发明人 马希龙 刘涛 薛贤巨  (74)专利代理 机构 北京清诚知识产权代理有限 公司 11691 代理人 宋红艳 (51)Int.Cl. G06F 40/284(2020.01) G06N 20/00(2019.01) (54)发明名称 一种基于文本的风险设备识别方法、 装置及 电子设备 (57)摘要 本发明公开了一种基于文本的风险设备识 别方法、 装置及电子设备, 所述方法包括: 获取待 识别职业风险对应的文本关键词; 基于设备文本 数据对所述文本关键词进行特征衍生, 得到衍生 特征; 基于所述衍生特征和设备标签数据训练风 险识别模型; 通过训练好的风险识别模型识别设 备风险。 本发 明将文本挖掘及特征衍生相结合来 识别设备的职业性风险, 能更加及时、 准确的识 别存在职业性风险的设备, 从而保障互联网服务 提供过程中的数据安全和交易安全, 降低企业损 失。 权利要求书2页 说明书10页 附图4页 CN 114065752 A 2022.02.18 CN 114065752 A 1.一种基于文本的风险设备识别方法, 其特 征在于, 所述方法包括: 获取待识别职业 风险对应的文本关键词; 基于设备文本数据对所述文本关键词进行 特征衍生, 得到衍 生特征; 基于所述 衍生特征和设备 标签数据训练风险识别模型; 通过训练好的风险识别模型识别设备风险。 2.根据权利要求1所述的方法, 其特征在于, 所述获取待识别职业风险对应的文本关键 词包括: 基于待识别职业风险类型为训练设备打上风险标签, 并采集训练设备的设备文本数 据; 对所述设备文本数据进行分词处 理, 得到待识别职业 风险类别对应的词语集; 确定词语集中各个词语对待识别职业 风险类别的区分度; 基于所述区分度获取待识别职业 风险对应的文本关键词。 3.根据权利要求1或2所述的方法, 其特征在于, 所述基于设备文本数据对所述文本关 键词进行 特征衍生包括: 将设备文本数据中包含的文本关键词及包含所述文本关键词的次数作为衍生特征; 其 中, 包含的文本 关键词可以是: 单个文本 关键词, 和/或, 多个文本 关键词组合成的组合文本 关键词; 或者, 所述基于设备文本数据对所述文本关键词进行 特征衍生包括: 从文本关键词中选取指定文本关键词; 将设备文本数据中包 含所述文本关键词的次数作为 衍生特征; 其中, 指定文本关键词可以是: 指定的单个文本关键词, 和/或, 指定的多个文本关键词 组合成的组合文本关键词。 4.根据权利要求1或2所述的方法, 其特征在于, 所述通过训练好的风险识别模型识别 设备风险包括: 获取设备的设备文本数据; 基于设备文本数据对所述文本关键词进行 特征衍生, 得到衍 生特征; 将衍生特征输入训练好的风险识别模型, 输出识别结果; 根据所述识别结果确定设备风险。 5.根据权利要求1 ‑4任一所述的方法, 其特 征在于, 所述方法还 包括: 根据识别结果将设备分至不同设备组; 基于设备 所在的设备组对设备进行控制。 6.根据权利要求5所述的方法, 其特征在于, 所述基于设备所在的设备组对设备进行控 制包括: 若设备分至风险设备组, 对设备进行交易限制, 并将该设备加入黑名单; 若设备分至疑似风险设备组, 对设备进行风险审核, 将未通过风险审核的设备进行交 易限制, 并将该设备加入黑名单。 7.一种基于文本的风险设备识别装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待识别职业 风险对应的文本关键词; 衍生模块, 用于基于设备文本数据对所述文本关键词进行 特征衍生, 得到衍 生特征;权 利 要 求 书 1/2 页 2 CN 114065752 A 2训练模块, 用于基于所述 衍生特征和设备 标签数据训练风险识别模型; 识别模块, 用于通过训练好的风险识别模型识别设备风险。 8.根据权利要求7 所述的装置, 其特 征在于, 所述获取模块包括: 采集模块, 用于基于待识别职业风险类型为训练设备打上风险标签, 并采集训练设备 的设备文本数据; 分词处理模块, 用于对所述设备文本数据进行分词处理, 得到待识别职业风险类别对 应的词语集; 确定模块, 用于确定词语集中各个词语对待识别职业 风险类别的区分度; 子获取模块, 用于基于所述区分度获取待识别职业 风险对应的文本关键词。 9.根据权利要求7或8所述的装置, 其特征在于, 所述衍生模块, 用于将设备文本数据中 包含的文本关键词及包含所述文本关键词的次数作为衍生特征; 其中, 包含的文本关键词 可以是: 单个文本关键词, 和/或, 多个文本关键词组合成的组合文本关键词; 或者, 所述 衍生模块包括: 选取模块, 用于从文本关键词中选取指定文本关键词; 子衍生模块, 用于将设备文本数据中包含所述文本关键词的次数作为衍生特征; 其中, 指定文本关键词可以是: 指定的单个文本关键词, 和/或, 指定的多个文本关键词组合成的 组合文本关键词。 10.根据权利要求7或8所述的装置, 其特 征在于, 所述识别模块包括: 第一获取模块, 用于获取设备的设备文本数据; 第一衍生模块, 用于基于设备文本数据对所述文本关键词进行特征衍生, 得到衍生特 征; 输入模块, 用于将衍 生特征输入训练好的风险识别模型, 输出识别结果; 子识别模块, 用于根据所述识别结果确定设备风险。 11.根据权利要求7 ‑10任一所述的装置, 其特 征在于, 所述装置还 包括: 划分模块, 用于根据识别结果将设备分至不同设备组; 控制模块, 用于基于设备 所在的设备组对设备进行控制。 12.根据权利要求1 1所述的装置, 其特 征在于, 所述控制模块包括: 第一控制模块, 用于若设备分至风险设备组, 对设备进行交易限制, 并将该设备加入黑 名单; 第二控制模块, 用于若设备分至疑似风险设备组, 对设备进行风险审核, 将未通过风险 审核的设备进行交易限制, 并将该设备加入黑名单。 13.一种电子设备, 包括: 处理器; 以及 存储计算机可执行指令的存储器, 所述计算机可执行指令在被执行时使所述处理器执 行根据权利要求1 ‑6中任一项所述的方法。 14.一种计算机可读存储介质, 其中, 所述计算机可读存储介质存储一个或多个程序, 当所述一个或多个程序被处 理器执行时, 实现权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114065752 A 3

.PDF文档 专利 一种基于文本的风险设备识别方法、装置及电子设备

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于文本的风险设备识别方法、装置及电子设备 第 1 页 专利 一种基于文本的风险设备识别方法、装置及电子设备 第 2 页 专利 一种基于文本的风险设备识别方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。