iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111229509.X (22)申请日 2021.10.21 (71)申请人 中通服公众信息产业股份有限公司 地址 830000 新疆维吾尔自治区乌鲁 木齐 市黄河路191号 (72)发明人 程涛 廖毅 李英 罗龑  (74)专利代理 机构 济南智圆行方专利代理事务 所(普通合伙企业) 37231 代理人 杨际伟 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/289(2020.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于聚类算法的高危 地区识别方法 (57)摘要 本发明提供了一种基于聚类算法的高危地 区识别方法, 属于高危地区识别技术领域。 其技 术方案为: 一种基于聚类算法的高危地区识别方 法, 包括对接相关部门的信息系统, 获取历史案 件数据, 生成训练数据集; 提取地址信息和高危 特征并生 成高危特征向量集; 对高危地区特征向 量集使用聚类算法计算, 进行聚类模型训练, 生 成模型库; 根据目标用户的身份信息提取居住信 息, 判断目标用户是否来自有高危特征的区域。 本发明的有益效果为: 通过对相关部门的历史案 件数据进行处理, 采用自动的特征提取和无监督 聚类机器学习算法实现地区与高危特征的聚类, 实现自动的高危 地区的识别。 权利要求书2页 说明书6页 附图3页 CN 114398934 A 2022.04.26 CN 114398934 A 1.一种基于聚类算法的高危 地区识别方法, 其特 征在于, 包括以下步骤: 对接相关部门的信 息系统, 获取历史案件数据, 根据案件数据生成包括案件信 息、 地址 信息、 高危特 征的关联 数据集, 作为训练数据集; 提取所述训练数据集中的地址信息, 并对所述地址信息进行编码, 每个地址对应生成 一个地址向量, 最终形成地址向量 集; 对所述地址向量 集内相似度超过设定阈值的所述 地址向量进行归并; 提取所述训练数据集中的高危特 征, 对高危特 征进行编码, 形成高危特 征向量集; 关联所述地址向量 集与所述高危特 征向量集后得到高危 地区特征向量集; 对所述高危 地区特征向量集使用聚类算法计算, 进行聚类模型训练, 生成模型库; 根据目标用户的身份数据提取居住信 息, 并对所述居住信 息进行编码生成待识别地址 编码; 所述待识别地址编码与所述模型库进行匹配, 经过模型预测后, 判断目标用户是否来 自有高危特 征的区域。 2.根据权利要求1所述的基于聚类算法的高危地区识别方法, 其特征在于, 设定更新周 期, 定期获取新增的案件数据, 生成与所述训练数据集格式相同的增量数据集, 提取并关联 与所述增量数据集相应的地址向量集和高危特征向量集, 并更新至 当前的高危地区特征向 量集, 重新进行聚类模型训练, 更新所述模型库。 3.根据权利要求1所述的基于聚类算法的高危地区识别方法, 其特征在于, 所述对地址 进行编码具体为: 首先采用国家标准地理信息库进 行分词, 对每个词进 行数字索引, 从而实 现地址的向量 化。 4.根据权利要求3所述的基于聚类算法的高危地区识别方法, 其特征在于, 通过欧氏距 离算法对地址 向量计算相似度, 通过多轮迭代, 将相似度大于一个阈值的地址组合进行合 并。 5.根据权利要求4所述的基于聚类算法的高危地区识别方法, 其特征在于, 地址向量的 相似度的计算如下: A=(a[1], a[2], …, a[n])和B=(b[1], b[2], …, b[n])之间的距离ρ(A, B)定义为下面的公式: 其中d值越小, 则说明两个地址向量A、 B的相似度越高。 6.根据权利要求4所述的基于聚类算法的高危地区识别方法, 其特征在于, 所述 聚类模 型训练具体为: 所述聚类算法是基于Spar k实现的K ‑means算法; 计算K值; 输入计算好的K值 和特征向量; 经计算结果存 储到模型库中。 7.一种基于聚类算法的高危地 区识别系统, 其特征在于, 包括第 一获取单元, 用于对接 相关部门的信息系统, 获取历史案件数据, 根据案件数据生成包括案件信息、 地址信息、 高 危特征的关联 数据集, 作为训练数据集; 地址向量生成单元, 用于提取所述训练数据集中的地址信 息, 并对地址进行编码, 每个 地址对应生成一个地址向量, 最终形成地址向量 集; 地址向量归 并单元, 用于对所述地址向量集内相似度超过设定 阈值的所述地址向量进权 利 要 求 书 1/2 页 2 CN 114398934 A 2行归并; 第二获取单元, 用于对接相关部门的信 息系统, 结合实时流处理技术获取增量数据集, 所述增量数据集 为随时间更新 不断产生的新数据; 高危特征向量生成单元, 用于提取所述训练数据集和增量数据集中的高危特征, 对高 危特征进行编码, 形成高危特 征向量集; 向量合并单元, 用于关联所述地址向量集与所述高危特征向量集后得到高危地 区特征 向量集; 模型库生成单元, 用于对高危地区特征向量集使用聚类算法计算, 进行聚类模型训练, 生成模型库; 识别单元, 用于提取目标用户的居住信息, 并对所述居住信息进行编码生成待识别地 址编码; 模型预测单元, 用于将所述待识别地址编码与所述模型库进行匹配, 预测判断目标用 户是否来自具有高危特 征的区域。 8.根据权利要求7所述的基于聚类算法的高危地区识别系统, 其特征在于, 还包括更新 单元, 用于更新所述模型库, 具体为: 设定更新周期, 定期获取新增的案件数据, 生 成与所述 训练数据集格式相同的增量数据集, 提取并关联与所述增量数据集相应的地址向量集和高 危特征向量集, 并更新至 当前的高危地区特征向量集, 重新进 行聚类模型训练, 更新所述模 型库。权 利 要 求 书 2/2 页 3 CN 114398934 A 3

.PDF文档 专利 一种基于聚类算法的高危地区识别方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于聚类算法的高危地区识别方法 第 1 页 专利 一种基于聚类算法的高危地区识别方法 第 2 页 专利 一种基于聚类算法的高危地区识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。