iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111236184.8 (22)申请日 2021.10.2 2 (71)申请人 苏州棱镜七彩信息科技有限公司 地址 215000 江苏省苏州市高新区通 安镇 真北路88号6号楼3楼 (72)发明人 石澳 余秋来 唐忱 但吉兵  罗峋 梁大功  (74)专利代理 机构 北京同辉知识产权代理事务 所(普通合伙) 11357 代理人 廖娜 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/215(2019.01) G06F 16/28(2019.01) G06F 16/31(2019.01)G06F 21/57(2013.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/58(2020.01) G06N 20/00(2019.01) (54)发明名称 多元异构漏洞整合建库方法 (57)摘要 本发明涉及一种多元异构漏洞整合建库方 法, 其包括以下步骤: 步骤一, 数据爬取; 步骤二, 构建数据仓库; 步骤三, 数据处理; 步骤四, 服务 集成。 由此, 能够实现中英文的重复漏洞的去重, 面对不同的语言描述, 实现有效去重。 通过源码 平台、 各大社区、 权威情报机构的多维度特征提 取添加权重进行相似度判定, 将相似值达到一定 程度的漏洞信息分为一组, 通过自然语 言处理对 特征进行打分, 选择最高分数特征作为互补的某 字段最终结果。 权利要求书2页 说明书6页 附图1页 CN 113961786 A 2022.01.21 CN 113961786 A 1.多元异构漏洞整合建库方法, 其特 征在于包括以下步骤: 步骤一, 数据爬取; 步骤二, 构建数据仓库; 步骤三, 数据处 理; 步骤四, 服 务集成。 2.根据权利要求1所述的多元异构漏洞整合建库 方法, 其特征在于: 所述步骤一中包括 以下步骤, a)寻找国内外结构化数据的漏洞情报分析站点、 非结构化社区、 托管平台, 进行数据调 研, 对单一站点进行 数据获取进行 方案记录; b)通过爬虫进行 各大来源的爬取, 将项目源码以及基本信息的数据作为原 始数据; c)对数据进行 预处理, 存入原始数据库; d)对数据进行清洗, 将原 始数据库转移至漏洞业 务数据库。 3.根据权利 要求2所述的多元异构漏洞 整合建库方法, 其特征在于: 所述爬虫为scrapy 网站级爬虫框架, 在爬虫爬取期间进 行反爬虫对抗, 所述反爬虫对抗包括使用动态代理、 解 码、 随机爬取中的一种或是多种方式, 以此绕过反爬虫 策略。 4.根据权利要求2所述的多元异构漏洞整合建库 方法, 其特征在于: 所述预处理包括去 空格、 转化或是删除特殊字符、 名称统一中的一种或是多种; 所述清洗为将数据归一化并建 立业务表。 5.根据权利要求1所述的多元异构漏洞整合建库 方法, 其特征在于: 所述步骤二中包括 以下步骤, a)对数据进行 标准化预处理; b)通过数据建模, 使用sql将各组件以及漏洞进行分类整合、 形成关联漏洞知识库。 6.根据权利要求5所述的多元异构漏洞整合建库 方法, 其特征在于: 所述标准化预处理 包括以下步骤, a)通过AI翻译, 将英文漏洞信息翻译为中文, 且使用自然语言处理提取相对应的术语 词汇, 将术语词汇通过人工翻译后存放至词汇库, 将词汇库与AI翻译后的术语词汇进行替 换, 形成中文漏洞 信息进行存 储; b)将非结构化来源的数据通过预处理转换为结构化的数据, 所述将 非结构化来源包含 Git社区、 论坛、 社交平台, 所述预处理为对调研后的关键字以及正则表达式特殊字符进行 匹配提取。 c)将结构化数据与转换为结构化的非结构来源数据, 存储至漏洞业务库, 将漏洞业务 库中的特征维度与指纹库以及产品业务表、 包管 理器表进行关联, 形成关联表; 所述结构化 数据的来源 包含whiteSouce平台、 NVD、 Snyk。 7.根据权利要求5所述的多元异构漏洞整合建库 方法, 其特征在于: 所述数据建模采用 kettle数据抽取、 清洗、 入库方式; 所述特征维度包含:CVE_ID、 名称、 内容相似度、 cpe、 git 地址、 二进制源码内容; 所述指纹库是根据源码文件的内容进 行hash后的结果; 所述包 管理 器表, 包含maven、 pipy、 ruby、 go。 8.根据权利要求1所述的多元异构漏洞整合建库 方法, 其特征在于: 所述步骤三中包括 以下步骤,权 利 要 求 书 1/2 页 2 CN 113961786 A 2a)通过分词工具进行分词, 分词后通过机器学习模组进行 学习, 并且提取其特 征; b)通过特征词数量 排序后, 进行 人工干预, 建立分类表; c)通过SparkMlib对同漏洞的相似维度进行打分, 进行人工设置阈值, 直到达到大于 N%的合理阈值; d)通过流处理框架对每条整合后的数据进行流处理, 将打分后的内容进行替换, 得到 去重后及互补后的标准漏洞结果, 与其它产品、 版本、 附属产品的关系进行关联, 存入图数 据库中。 9.根据权利要求8所述的多元异构漏洞整合建库方法, 其特征在于: 所述分词工具为 jieba中文分词 工具, 所述机器学习模组为SparkMlib决策树; 所述人工干预为进行低质量 与高质量词汇分类。 10.根据权利要求1所述的多元异构漏洞整合建库方法, 其特征在于: 所述步骤四中包 括以下步骤, a)打成jar包后, 通过docker进行镜像打包, 推送至公共镜像地址; b)通过ranc her进行容器管理; c)通过Jenkins, 配置gitlab与docker、 及rancher的触发关系, 使得更新源码后, 立即 更新部署。权 利 要 求 书 2/2 页 3 CN 113961786 A 3

.PDF文档 专利 多元异构漏洞整合建库方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多元异构漏洞整合建库方法 第 1 页 专利 多元异构漏洞整合建库方法 第 2 页 专利 多元异构漏洞整合建库方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:02:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。