(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111199447.2
(22)申请日 2021.10.14
(65)同一申请的已公布的文献号
申请公布号 CN 113643079 A
(43)申请公布日 2021.11.12
(73)专利权人 亿景智联 (北京) 科技有限公司
地址 100085 北京市海淀区上地信息产业
基地创业路6号3层3 015
(72)发明人 孙伟 朱与墨 储鑫淼 田鹏飞
(74)专利代理 机构 北京智丞瀚方知识产权代理
有限公司 1 1810
代理人 刘化帅
(51)Int.Cl.
G06Q 30/02(2012.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)(56)对比文件
CN 10896 0656 A,2018.12.07
CN 112465533 A,2021.0 3.09
US 201516 0035 A1,2015.0 6.11
CN 105095591 A,2015.1 1.25
石荣群等.中越边 境跨国少数民族人群健康
水平的因子分析. 《中国组织工程研究与临床康
复》 .2007,(第39期),
Kousiouris.An i ntegrated i nformati on
lifecycle mana gement framew ork for
exploiting social netw ork data to
identify dynamic large cro wd
concentrati on events i n smart cities
applications. 《Future Generati on Computer
Systems》 .2018,
审查员 孙旭
(54)发明名称
一种基于格网粒子画像确定人群规模的方
法及设备
(57)摘要
本申请公开了一种基于格网粒子画像确定
人群规模的方法及设备。 该方法包括: 获取不同
等级城市的格网粒子画像数据集; 使用聚类算法
对格网粒子画 像数据集进行聚类以输出簇组; 对
簇组排序并确定各个簇的人群规模。 本申请的技
术方案可在人口格网数据生产中降低千倍 以上
成本, 在进行城市洞察规划以及门店智能选址方
面可以提供 更经济可靠的数据服 务。
权利要求书2页 说明书4页 附图2页
CN 113643079 B
2022.03.01
CN 113643079 B
1.一种基于格网粒子画像确定人群规模的方法, 其特 征在于, 该 方法包括:
获取不同等级城市的格网粒子画像数据集, 分别将不同等级城市的格网粒子画像数据
切分, 得到对各个级别城市对应的格网粒子画像数据集, 对所述格网粒子画像数据集进行
归一化;
使用聚类算法对格网粒子画像数据集进行聚类以输出簇组, 所述聚类算法采用K ‑
means算法, 所述K ‑means算法采用余弦相似度计算格网粒子之间的距离, 所述余弦相似度
的计算通过获取第一特征属性和 第二特征属性的八分位数, 并设置取第一特征属性的八分
位数和第二特征属 性的八分位数 的乘积为阈值, 在计算第一特征属 性、 第二特征属 性的八
分位数时, 将第一特征属性、 第二属性特征的各个参数归一化后进行加和,然后得到和排
序, 从而取 出八分位数对应的特 征属性,作为特 征属性的八 分位数;
对簇组排序并确定各个簇的人群规模, 簇组排序利用簇组中心点的特征属性值相加继
续进行排序, 将排序后的结果与已知的格网人 口数据范围对应, 从而确定各个簇的人群规
模, 将簇组对应的人群规模进行分级, 每 个等级对应若干 簇组。
2.根据权利要求1所述的方法, 其特征在于, 所述使用聚类算法对格网粒子画像数据集
进行聚类以输出簇组包括:
切分所述不同等级城市的格网粒子画像数据集, 得到格网粒子画像数据测试集和格网
粒子画像数据训练集;
使用聚类算法对格网粒子画像数据训练集进行聚类, 并使用格网粒子画像数据测试集
验证聚类算法, 直至聚类算法输出的簇组符合预定的条件。
3.根据权利要求2所述的方法, 其特征在于, 所述切分所述不同等级城市的格网粒子画
像数据集包括使用留出法切分所述 不同等级城市的格网粒子画像数据集。
4.一种基于格网粒子画像确定人群规模的设备, 其特 征在于, 该设备包括:
获取单元, 用于获取不同等级城市的格网粒子画像数据集, 分别将不同等级城市的格
网粒子画像数据切分, 得到对各个级别城市对应的格网粒子画像数据集;
归一化单元, 用于对获取的不同等级城市的格网粒子画像数据集进行归一 化;
聚类单元, 用于使用聚类算法对格网粒子画像数据集进行聚类以输出簇组, 所述聚类
算法采用K ‑means算法, 所述K ‑means算法采用余弦相似度计算格网粒子之间的距离, 所述
余弦相似度的计算通过获取第一特征属性和 第二特征属性的八分位数, 并设置取第一特征
属性的八分位数和第二特征属 性的八分位数 的乘积为阈值, 在计算第一特征属 性、 第二特
征属性的八分位数时, 将第一特征属性、 第二属性特征的各个参数归一化后进 行加和,然后
得到和排序, 从而取 出八分位数对应的特 征属性,作为特 征属性的八 分位数;
确定单元, 用于对簇组排序并确定各个簇的人群规模, 簇组排序利用簇组中心点的特
征属性值相加继续进行排序, 将排序后的结果与已知的格网人口数据范围对应, 从而确定
各个簇的人群规模, 将簇组对应的人群规模进行分级, 每 个等级对应若干 簇组。
5.根据权利要求4所述的设备, 其特征在于, 所述聚类单元, 用于切分所述不同等级城
市的格网粒子画像数据集, 得到格网粒子画像数据测试集和格网粒子画像数据训练集; 使
用聚类算法对格网粒子画像数据训练集进 行聚类, 并使用格网粒子画像数据测试集验证聚
类算法, 直至聚类算法输出的簇组符合预定的条件。
6.根据权利要求5所述的设备, 其特征在于, 所述聚类单元, 还用于使用留出法切分所权 利 要 求 书 1/2 页
2
CN 113643079 B
2述不同等级城市的格网粒子画像数据集。
7.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器存
储可被处理器执行的计算机指 令, 当处理器执行上述计算机时, 实现根据权利要求 1‑3任一
项所述的方法。
8.一种计算机可读介质, 其特征在于, 存储计算机指令, 所述计算机指令用于实现根据
权利要求1 ‑3任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 113643079 B
3
专利 一种基于格网粒子画像确定人群规模的方法及设备
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:59:39上传分享