iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111231729.6 (22)申请日 2021.10.2 2 (71)申请人 平安国际智慧城市科技股份有限公 司 地址 518000 广东省深圳市前海深港合作 区妈湾兴海 大道3048号前海自贸大厦 1-34层 (72)发明人 莫智文  (74)专利代理 机构 深圳中一联合知识产权代理 有限公司 4 4414 代理人 杨志强 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06N 20/00(2019.01) (54)发明名称 基于深度学习的敏感词检测方法、 装置、 设 备及存储介质 (57)摘要 本申请适用于人工智能技术领域, 提供了基 于深度学习的敏感词检测方法、 装置、 设备及存 储介质。 包括: 获取待检测文本; 通过敏感词检测 模型提取待检测文本对应的字形 组合特征、 字形 编码特征以及拼音编码特征; 根据预设的敏感词 库、 字形组合特征、 字形编码特征 以及拼音编码 特征, 确定待检测文本对应的多个初始敏感词; 提取每个初始敏感词的词义特征; 提取待检测文 本的语义特征; 根据语义特征和每个初始敏感词 的词义特征, 确定待检测文本对应的目标敏感 词。 上述方案中, 提取汉字在字形和发音两方面 的特征, 融合上下文信息, 使最终确定的敏感词 更为准确。 还提取字形组合特征, 能够更好地检 测出变形词对应的敏感词, 进一步提升了检测敏 感词的准确率。 权利要求书2页 说明书15页 附图4页 CN 113988061 A 2022.01.28 CN 113988061 A 1.一种基于深度学习的敏感词检测方法, 其特 征在于, 包括: 获取待检测文本; 通过已训练的敏感词检测模型遍历所述待检测文本对应的每个字, 并在遍历过程中检 测到所述待检测文本中的字能组成新字时, 根据所述新字确定所述待检测文本对应的字形 组合特征; 通过所述敏感词检测模型对所述待检测文本 中的每个字进行字形编码, 得到所述待检 测文本对应的字形编码特征, 所述字形编 码特征包括汉字字形编 码特征和四角号码编 码特 征; 通过所述敏感词检测模型对所述待检测文本 中的每个字进行拼音编码, 得到所述待检 测文本对应的拼音编码特征, 所述拼音编 码特征包括汉字拼音编 码特征和部首拼音编 码特 征; 根据预设的敏感词库、 所述字形组合特征、 所述字形编码特征以及所述拼音编码特征, 确定所述待检测文本对应的多个初始敏感词; 采用所述敏感词检测模型提取每 个所述初始敏感词的词义特 征; 通过所述敏感词检测模型提取 所述待检测文本的语义特 征; 根据所述语义特征和每个所述初始敏感词的词义特征, 确定所述待检测文本对应的目 标敏感词。 2.如权利要求1所述的敏感词检测方法, 其特征在于, 所述初始敏感词包括第一敏感 词、 第二敏感词、 第三敏感词以及第四敏感词; 所述根据预设的敏感词库、 所述字形组合特 征、 所述字形编码特征以及所述拼音编码特征, 确定所述待检测文本对应的多个初始敏感 词, 包括: 基于所述敏感词库, 确定所述待检测文本对应的第一敏感词; 根据所述敏感词库和所述字形组合特 征, 确定所述待检测文本对应的第二敏感词; 基于所述敏感词库和所述字形编码特 征, 确定所述待检测文本对应的第三敏感词; 根据所述敏感词库和所述 拼音编码特 征, 确定所述待检测文本对应的第四敏感词。 3.如权利要求2所述的敏感词检测方法, 其特征在于, 所述基于所述敏感词库, 确定所 述待检测文本对应的第一敏感词, 包括: 对所述待检测文本进行分词处 理, 得到多个分词, 所述分词包括词语和单字; 当在所述敏感词库中查询到任一所述分词时, 将任一所述分词确定为所述第一敏感 词。 4.如权利要求2所述的敏感词检测方法, 其特征在于, 所述基于所述敏感词库和所述字 形编码特 征, 确定所述待检测文本对应的第三敏感词, 包括: 在所述敏感词库中查询与所述字形编码特 征匹配的敏感词; 将查询到的与所述字形编码特 征匹配的敏感词, 确定为所述第三敏感词。 5.如权利要求2所述的敏感词检测方法, 其特征在于, 所述根据 所述敏感词库和所述拼 音编码特 征, 确定所述待检测文本对应的第四敏感词, 包括: 在所述敏感词库中查询与所述 拼音编码特 征匹配的敏感词; 将查询到的与所述 拼音编码特 征匹配的敏感词, 确定为所述第四敏感词。 6.如权利要求1所述的敏感词检测方法, 其特征在于, 所述获取待检测文本之前, 所述权 利 要 求 书 1/2 页 2 CN 113988061 A 2敏感词检测方法还 包括: 获取预设的多个敏感词; 对每个所述敏感词进行字形编码, 得到每 个所述敏感词对应的字形编码敏感词; 对每个所述敏感词进行拼音编码, 得到每 个所述敏感词对应的拼音编码敏感词; 基于每个所述敏感词、 每个所述字形编码敏感词以及每个所述拼音编码敏感词, 构建 所述敏感词库。 7.如权利要求1至6任一项所述的敏感词检测方法, 其特征在于, 所述根据所述语义特 征和每个所述初始敏感词的词义特征, 确定所述待检测文本对应的目标敏感词之后, 所述 敏感词检测方法还 包括: 在所述待检测文本中过 滤所述目标 敏感词。 8.一种基于深度学习的敏感词检测装置, 其特 征在于, 包括: 获取单元, 用于获取待检测文本; 第一确定单元, 用于通过已训练的敏感词检测模型遍历所述待检测文本对应的每个 字, 并在遍历过程中检测到所述待检测文本中的字能组成新字时, 根据所述新字确定所述 待检测文本对应的字形组合特 征; 第一编码单元, 用于通过所述敏感词检测模型对所述待检测文本 中的每个字进行字形 编码, 得到所述待检测文本对应的字形编码特征, 所述字形编码特征包括汉字字形编码特 征和四角号码编码特 征; 第二编码单元, 用于通过所述敏感词检测模型对所述待检测文本 中的每个字进行拼音 编码, 得到所述待检测文本对应的拼音编码特征, 所述拼音编码特征包括汉字拼音编码特 征和部首拼音编码特 征; 第二确定单元, 用于根据 预设的敏感词库、 所述字形组合特征、 所述字形编码特征以及 所述拼音编码特 征, 确定所述待检测文本对应的多个初始敏感词; 第一提取单元, 用于采用所述敏感词检测模型提取每 个所述初始敏感词的词义特 征; 第二提取单元, 用于通过 所述敏感词检测模型提取 所述待检测文本的语义特 征; 第三确定单元, 用于根据所述语义特征和每个所述初始敏感词的词义特征, 确定所述 待检测文本对应的目标 敏感词。 9.一种基于深度学习的敏感词检测设备, 包括存储器、 处理器以及存储在所述存储器 中并可在所述处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述计算机程序 时实现如权利要求1至7任一项所述的方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 113988061 A 3

.PDF文档 专利 基于深度学习的敏感词检测方法、装置、设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度学习的敏感词检测方法、装置、设备及存储介质 第 1 页 专利 基于深度学习的敏感词检测方法、装置、设备及存储介质 第 2 页 专利 基于深度学习的敏感词检测方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:02:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。