iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111229509.X (22)申请日 2021.10.21 (71)申请人 中通服公众信息产业股份有限公司 地址 830000 新疆维吾尔自治区乌鲁 木齐 市黄河路191号 (72)发明人 程涛 廖毅 李英 罗龑 (74)专利代理 机构 济南智圆行方专利代理事务 所(普通合伙企业) 37231 代理人 杨际伟 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/289(2020.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于聚类算法的高危 地区识别方法 (57)摘要 本发明提供了一种基于聚类算法的高危地 区识别方法, 属于高危地区识别技术领域。 其技 术方案为: 一种基于聚类算法的高危地区识别方 法, 包括对接相关部门的信息系统, 获取历史案 件数据, 生成训练数据集; 提取地址信息和高危 特征并生 成高危特征向量集; 对高危地区特征向 量集使用聚类算法计算, 进行聚类模型训练, 生 成模型库; 根据目标用户的身份信息提取居住信 息, 判断目标用户是否来自有高危特征的区域。 本发明的有益效果为: 通过对相关部门的历史案 件数据进行处理, 采用自动的特征提取和无监督 聚类机器学习算法实现地区与高危特征的聚类, 实现自动的高危 地区的识别。 权利要求书2页 说明书6页 附图3页 CN 114398934 A 2022.04.26 CN 114398934 A 1.一种基于聚类算法的高危 地区识别方法, 其特 征在于, 包括以下步骤: 对接相关部门的信 息系统, 获取历史案件数据, 根据案件数据生成包括案件信 息、 地址 信息、 高危特 征的关联 数据集, 作为训练数据集; 提取所述训练数据集中的地址信息, 并对所述地址信息进行编码, 每个地址对应生成 一个地址向量, 最终形成地址向量 集; 对所述地址向量 集内相似度超过设定阈值的所述 地址向量进行归并; 提取所述训练数据集中的高危特 征, 对高危特 征进行编码, 形成高危特 征向量集; 关联所述地址向量 集与所述高危特 征向量集后得到高危 地区特征向量集; 对所述高危 地区特征向量集使用聚类算法计算, 进行聚类模型训练, 生成模型库; 根据目标用户的身份数据提取居住信 息, 并对所述居住信 息进行编码生成待识别地址 编码; 所述待识别地址编码与所述模型库进行匹配, 经过模型预测后, 判断目标用户是否来 自有高危特 征的区域。 2.根据权利要求1所述的基于聚类算法的高危地区识别方法, 其特征在于, 设定更新周 期, 定期获取新增的案件数据, 生成与所述训练数据集格式相同的增量数据集, 提取并关联 与所述增量数据集相应的地址向量集和高危特征向量集, 并更新至 当前的高危地区特征向 量集, 重新进行聚类模型训练, 更新所述模型库。 3.根据权利要求1所述的基于聚类算法的高危地区识别方法, 其特征在于, 所述对地址 进行编码具体为: 首先采用国家标准地理信息库进 行分词, 对每个词进 行数字索引, 从而实 现地址的向量 化。 4.根据权利要求3所述的基于聚类算法的高危地区识别方法, 其特征在于, 通过欧氏距 离算法对地址 向量计算相似度, 通过多轮迭代, 将相似度大于一个阈值的地址组合进行合 并。 5.根据权利要求4所述的基于聚类算法的高危地区识别方法, 其特征在于, 地址向量的 相似度的计算如下: A=(a[1], a[2], …, a[n])和B=(b[1], b[2], …, b[n])之间的距离ρ(A, B)定义为下面的公式: 其中d值越小, 则说明两个地址向量A、 B的相似度越高。 6.根据权利要求4所述的基于聚类算法的高危地区识别方法, 其特征在于, 所述 聚类模 型训练具体为: 所述聚类算法是基于Spar k实现的K ‑means算法; 计算K值; 输入计算好的K值 和特征向量; 经计算结果存 储到模型库中。 7.一种基于聚类算法的高危地 区识别系统, 其特征在于, 包括第 一获取单元, 用于对接 相关部门的信息系统, 获取历史案件数据, 根据案件数据生成包括案件信息、 地址信息、 高 危特征的关联 数据集, 作为训练数据集; 地址向量生成单元, 用于提取所述训练数据集中的地址信 息, 并对地址进行编码, 每个 地址对应生成一个地址向量, 最终形成地址向量 集; 地址向量归 并单元, 用于对所述地址向量集内相似度超过设定 阈值的所述地址向量进权 利 要 求 书 1/2 页 2 CN 114398934 A 2行归并; 第二获取单元, 用于对接相关部门的信 息系统, 结合实时流处理技术获取增量数据集, 所述增量数据集 为随时间更新 不断产生的新数据; 高危特征向量生成单元, 用于提取所述训练数据集和增量数据集中的高危特征, 对高 危特征进行编码, 形成高危特 征向量集; 向量合并单元, 用于关联所述地址向量集与所述高危特征向量集后得到高危地 区特征 向量集; 模型库生成单元, 用于对高危地区特征向量集使用聚类算法计算, 进行聚类模型训练, 生成模型库; 识别单元, 用于提取目标用户的居住信息, 并对所述居住信息进行编码生成待识别地 址编码; 模型预测单元, 用于将所述待识别地址编码与所述模型库进行匹配, 预测判断目标用 户是否来自具有高危特 征的区域。 8.根据权利要求7所述的基于聚类算法的高危地区识别系统, 其特征在于, 还包括更新 单元, 用于更新所述模型库, 具体为: 设定更新周期, 定期获取新增的案件数据, 生 成与所述 训练数据集格式相同的增量数据集, 提取并关联与所述增量数据集相应的地址向量集和高 危特征向量集, 并更新至 当前的高危地区特征向量集, 重新进 行聚类模型训练, 更新所述模 型库。权 利 要 求 书 2/2 页 3 CN 114398934 A 3
专利 一种基于聚类算法的高危地区识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-19 01:59:50
上传分享
举报
下载
原文档
(457.6 KB)
分享
友情链接
MT-T 635-2020 矿井巷道通风摩擦阻力系数测定方法.pdf
GB-T 31710.3-2015 休闲露营地建设与服务规范 第3部分:帐篷露营地.pdf
GB-T 26607-2011 工业用邻苯基苯酚.pdf
JR-T 0071.5—2020 金融行业网络安全等级保护实施指引 第5部分:审计要求.pdf
GB-T 18238.1-2000 信息技术 安全技术 散列函数 第1部分 概述.pdf
数据分类分级管理制度.pdf
DB23-T 3649.8—2023 政府网站建设管理规范 第8部分:集约化平台运维 黑龙江省.pdf
T-CPPC 1055—2022 全地形车 休闲项目技术规范.pdf
T-CPMA 016—2020 数字化预防接种门诊基本功能标准.pdf
T-CAAMTB 134—2023 质量分级及“领跑者”评价要求 电动汽车用驱动电机系统.pdf
GB-T 43236-2023 城市生态风险评价技术指南.pdf
GB-T 30273-2013 信息安全技术 信息系统安全保障通用评估指南.pdf
GB-T 33540.3-2017 风力发电机组专用润滑剂 第3部分:变速箱齿轮油.pdf
T-CHTS 10034—2021 沥青路面施工质量信息动态管理技术指南.pdf
腾讯安全 浅谈勒索病毒场景下零信任技术应用.pdf
NB-T 10857-2021 水电工程合理使用年限及耐久性设计规范.pdf
DB15-T 1873—2020 大数据平台 数据接入质量规范 内蒙古自治区.pdf
GB-T 25065-2010 信息安全技术 公钥基础设施 签名生成应用程序的安全要求.pdf
GB-T 33222-2016 机械产品生命周期管理系统通用技术规范.pdf
GB-T 41819-2022 信息安全技术 人脸识别数据安全要求.pdf
1
/
3
12
评价文档
赞助3元 点击下载(457.6 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。