专利 多元异构漏洞整合建库方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111236184.8 (22)申请日 2021.10.2 2 (71)申请人苏州棱镜七彩信息科技有限公司地址 215000 江苏省苏州市高新区通安镇真北路88号6号楼3楼 (72)发明人石澳　余秋来　唐忱　但吉兵　罗峋　梁大功　 (74)专利代理机构北京同辉知识产权代理事务所(普通合伙) 11357 代理人廖娜 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/215(2019.01) G06F 16/28(2019.01) G06F 16/31(2019.01)G06F 21/57(2013.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/58(2020.01) G06N 20/00(2019.01) (54)发明名称多元异构漏洞整合建库方法 (57)摘要本发明涉及一种多元异构漏洞整合建库方法，其包括以下步骤：步骤一，数据爬取；步骤二，构建数据仓库；步骤三，数据处理；步骤四，服务集成。由此，能够实现中英文的重复漏洞的去重，面对不同的语言描述，实现有效去重。通过源码平台、各大社区、权威情报机构的多维度特征提取添加权重进行相似度判定，将相似值达到一定程度的漏洞信息分为一组，通过自然语言处理对特征进行打分，选择最高分数特征作为互补的某字段最终结果。权利要求书2页说明书6页附图1页 CN 113961786 A 2022.01.21 CN 113961786 A 1.多元异构漏洞整合建库方法，其特征在于包括以下步骤：步骤一，数据爬取；步骤二，构建数据仓库；步骤三，数据处理；步骤四，服务集成。 2.根据权利要求1所述的多元异构漏洞整合建库方法，其特征在于：所述步骤一中包括以下步骤， a)寻找国内外结构化数据的漏洞情报分析站点、非结构化社区、托管平台，进行数据调研，对单一站点进行数据获取进行方案记录； b)通过爬虫进行各大来源的爬取，将项目源码以及基本信息的数据作为原始数据； c)对数据进行预处理，存入原始数据库； d)对数据进行清洗，将原始数据库转移至漏洞业务数据库。 3.根据权利要求2所述的多元异构漏洞整合建库方法，其特征在于：所述爬虫为scrapy 网站级爬虫框架，在爬虫爬取期间进行反爬虫对抗，所述反爬虫对抗包括使用动态代理、解码、随机爬取中的一种或是多种方式，以此绕过反爬虫策略。 4.根据权利要求2所述的多元异构漏洞整合建库方法，其特征在于：所述预处理包括去空格、转化或是删除特殊字符、名称统一中的一种或是多种；所述清洗为将数据归一化并建立业务表。 5.根据权利要求1所述的多元异构漏洞整合建库方法，其特征在于：所述步骤二中包括以下步骤， a)对数据进行标准化预处理； b)通过数据建模，使用sql将各组件以及漏洞进行分类整合、形成关联漏洞知识库。 6.根据权利要求5所述的多元异构漏洞整合建库方法，其特征在于：所述标准化预处理包括以下步骤， a)通过AI翻译，将英文漏洞信息翻译为中文，且使用自然语言处理提取相对应的术语词汇，将术语词汇通过人工翻译后存放至词汇库，将词汇库与AI翻译后的术语词汇进行替换，形成中文漏洞信息进行存储； b)将非结构化来源的数据通过预处理转换为结构化的数据，所述将非结构化来源包含 Git社区、论坛、社交平台，所述预处理为对调研后的关键字以及正则表达式特殊字符进行匹配提取。 c)将结构化数据与转换为结构化的非结构来源数据，存储至漏洞业务库，将漏洞业务库中的特征维度与指纹库以及产品业务表、包管理器表进行关联，形成关联表；所述结构化数据的来源包含whiteSouce平台、 NVD、 Snyk。 7.根据权利要求5所述的多元异构漏洞整合建库方法，其特征在于：所述数据建模采用 kettle数据抽取、清洗、入库方式；所述特征维度包含:CVE_ID、名称、内容相似度、 cpe、 git 地址、二进制源码内容；所述指纹库是根据源码文件的内容进行hash后的结果；所述包管理器表，包含maven、 pipy、 ruby、 go。 8.根据权利要求1所述的多元异构漏洞整合建库方法，其特征在于：所述步骤三中包括以下步骤，权　利　要　求　书 1/2 页 2 CN 113961786 A 2a)通过分词工具进行分词，分词后通过机器学习模组进行学习，并且提取其特征； b)通过特征词数量排序后，进行人工干预，建立分类表； c)通过SparkMlib对同漏洞的相似维度进行打分，进行人工设置阈值，直到达到大于 N％的合理阈值； d)通过流处理框架对每条整合后的数据进行流处理，将打分后的内容进行替换，得到去重后及互补后的标准漏洞结果，与其它产品、版本、附属产品的关系进行关联，存入图数据库中。 9.根据权利要求8所述的多元异构漏洞整合建库方法，其特征在于：所述分词工具为 jieba中文分词工具，所述机器学习模组为SparkMlib决策树；所述人工干预为进行低质量与高质量词汇分类。 10.根据权利要求1所述的多元异构漏洞整合建库方法，其特征在于：所述步骤四中包括以下步骤， a)打成jar包后，通过docker进行镜像打包，推送至公共镜像地址； b)通过ranc her进行容器管理； c)通过Jenkins，配置gitlab与docker、及rancher的触发关系，使得更新源码后，立即更新部署。权　利　要　求　书 2/2 页 3 CN 113961786 A 3

专利 多元异构漏洞整合建库方法

专利多元异构漏洞整合建库方法