iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111201242.3 (22)申请日 2021.10.15 (71)申请人 美林数据技 术股份有限公司 地址 710075 陕西省西安市高新区软件新 城天谷八路528号国家电子商务示范 基地六层 (72)发明人 程宏亮 刘宏 张鹏飞 胡辉  毕珍 马草 苟蛟龙 孙嘉伟  (74)专利代理 机构 陕西佳禾宏盛知识产权代理 事务所 (特殊普通合伙) 61280 代理人 高美化 (51)Int.Cl. G06V 10/764(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于机器学习的综合加权主数据识别 方法 (57)摘要 本发明公开了一种基于机器学习的综合加 权主数据识别方法, 包括以下步骤: 步骤1: 梳理 业务实体域并依据主数据的特点, 选出主数据的 最具代表 性的特征,所述特征至少包括引用的出 度及入度; 步骤2: 根据步骤1中获得的主数据提 取出来的识别特征作为随机森 林分类的特征, 选 取训练集, 进行数据清洗, 基于随机森林算法, 选 取最优参数构建决策树; 步骤3: 使用测试集, 利 用构建的多棵决策树进行测试, 得到对应的分类 类别; 步骤4: 采用综合加权法对决策树赋 予不同 的权重, 采用投票法则得到最终分类结果。 本发 明可提升企业业务主数据查找的准确率及速率, 有效提高企业主数据的管理效率。 权利要求书2页 说明书5页 附图2页 CN 113920366 A 2022.01.11 CN 113920366 A 1.一种基于 机器学习的综合加权主数据识别方法, 其特 征在于, 包括以下步骤: 步骤1: 梳理业务实体域并依据主数据的特点, 选出主数据的最具代表性的特征,所述 特征至少包括引用的出度及入度; 步骤2: 根据步骤1中获得的主数据提取出来的识别特征作为随机森林分类的特征, 选 取训练集, 进行 数据清洗, 基于随机森林算法, 选取最优参数构建决策树; 步骤3: 使用测试集, 利用构建的多棵决策树进行测试, 得到对应的分类 类别; 步骤4: 采用综合加权法对决策树赋予不同的权 重, 采用投票法则得到最终分类结果。 2.根据权利要求1所述的一种基于机器学习的综合加权主数据识别方法, 其特征在于, 所述主数据识别的特征包括表信息特征及数据特征, 所述表特征包括但不限于表名称、 创 建时间、 表注释、 表数据量、 引用的出度及入度; 所述数据特征包括但不限于: 字段名称、 字 段类型、 字段注释、 字段值记录数、 字段值去重记录、 主键信息 。 3.根据权利要求1所述的一种基于机器学习的综合加权主数据识别方法, 其特征在于, 所述步骤2中选择CART算法对决策树的内部节点进行划分数据集。 4.根据权利要求1所述的一种基于机器学习的综合加权主数据识别方法, 其特征在于, 所述决策树的数量设定为10 0。 5.根据权利要求1所述的一种基于机器学习的综合加权主数据识别方法, 其特征在于, 采用对Gini系数进行加权的方法构建决策树: 采用Boostrap机采样法从主 数据中抽取数据 集D, 数据集D由x个训练样本和M个特征构成, 每类样本的权重Wk与该分类在样本集中出现 的频率Pk(k=1,2,...,K)成反比, K为样本类别个数, 则: 在决策树的生长过程中, 采用基于加权基尼系数GW寻找最优的划分特 征: 其中, nk为节点内的各类样本数; Wk为分配给每 类的权重值。 6.根据权利要求5所述的一种基于机器学习的综合加权主数据识别方法, 其特征在于, 所述样本集D中的点属于第k类的概 率为Pk, 则该概率分布的基尼指数为: 7.根据权利要求5所述的一种基于机器学习的综合加权主数据识别方法, 其特征在于, 数据集D根据特征A可被分割成D1和D2两部分, 求取GW(D, A)最小值获得最优划分, 构建加权 决策树: 权 利 要 求 书 1/2 页 2 CN 113920366 A 2GW(D, A)最小值即该节点的最优特 征, A(A∈M)为分裂特 征。 8.根据权利要求1 ‑7任意一项所述的一种基于机器学习的综合加权主数据识别方法, 其特征在于, 给每 个决策树进行权 重赋值: TP代表模型预测该样例为真而实际确实为真的数量, 真为主数据, FP代表模型预测为 真而实际为假的的数量, FN代表模型预测为假且实际也为假的概率; 则权重赋值公式为: 其中, Fi为第i棵决策树的F1 ‑Score值。权 利 要 求 书 2/2 页 3 CN 113920366 A 3

.PDF文档 专利 一种基于机器学习的综合加权主数据识别方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习的综合加权主数据识别方法 第 1 页 专利 一种基于机器学习的综合加权主数据识别方法 第 2 页 专利 一种基于机器学习的综合加权主数据识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。