iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111236184.8 (22)申请日 2021.10.2 2 (71)申请人 苏州棱镜七彩信息科技有限公司 地址 215000 江苏省苏州市高新区通 安镇 真北路88号6号楼3楼 (72)发明人 石澳 余秋来 唐忱 但吉兵 罗峋 梁大功 (74)专利代理 机构 北京同辉知识产权代理事务 所(普通合伙) 11357 代理人 廖娜 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/215(2019.01) G06F 16/28(2019.01) G06F 16/31(2019.01)G06F 21/57(2013.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/58(2020.01) G06N 20/00(2019.01) (54)发明名称 多元异构漏洞整合建库方法 (57)摘要 本发明涉及一种多元异构漏洞整合建库方 法, 其包括以下步骤: 步骤一, 数据爬取; 步骤二, 构建数据仓库; 步骤三, 数据处理; 步骤四, 服务 集成。 由此, 能够实现中英文的重复漏洞的去重, 面对不同的语言描述, 实现有效去重。 通过源码 平台、 各大社区、 权威情报机构的多维度特征提 取添加权重进行相似度判定, 将相似值达到一定 程度的漏洞信息分为一组, 通过自然语 言处理对 特征进行打分, 选择最高分数特征作为互补的某 字段最终结果。 权利要求书2页 说明书6页 附图1页 CN 113961786 A 2022.01.21 CN 113961786 A 1.多元异构漏洞整合建库方法, 其特 征在于包括以下步骤: 步骤一, 数据爬取; 步骤二, 构建数据仓库; 步骤三, 数据处 理; 步骤四, 服 务集成。 2.根据权利要求1所述的多元异构漏洞整合建库 方法, 其特征在于: 所述步骤一中包括 以下步骤, a)寻找国内外结构化数据的漏洞情报分析站点、 非结构化社区、 托管平台, 进行数据调 研, 对单一站点进行 数据获取进行 方案记录; b)通过爬虫进行 各大来源的爬取, 将项目源码以及基本信息的数据作为原 始数据; c)对数据进行 预处理, 存入原始数据库; d)对数据进行清洗, 将原 始数据库转移至漏洞业 务数据库。 3.根据权利 要求2所述的多元异构漏洞 整合建库方法, 其特征在于: 所述爬虫为scrapy 网站级爬虫框架, 在爬虫爬取期间进 行反爬虫对抗, 所述反爬虫对抗包括使用动态代理、 解 码、 随机爬取中的一种或是多种方式, 以此绕过反爬虫 策略。 4.根据权利要求2所述的多元异构漏洞整合建库 方法, 其特征在于: 所述预处理包括去 空格、 转化或是删除特殊字符、 名称统一中的一种或是多种; 所述清洗为将数据归一化并建 立业务表。 5.根据权利要求1所述的多元异构漏洞整合建库 方法, 其特征在于: 所述步骤二中包括 以下步骤, a)对数据进行 标准化预处理; b)通过数据建模, 使用sql将各组件以及漏洞进行分类整合、 形成关联漏洞知识库。 6.根据权利要求5所述的多元异构漏洞整合建库 方法, 其特征在于: 所述标准化预处理 包括以下步骤, a)通过AI翻译, 将英文漏洞信息翻译为中文, 且使用自然语言处理提取相对应的术语 词汇, 将术语词汇通过人工翻译后存放至词汇库, 将词汇库与AI翻译后的术语词汇进行替 换, 形成中文漏洞 信息进行存 储; b)将非结构化来源的数据通过预处理转换为结构化的数据, 所述将 非结构化来源包含 Git社区、 论坛、 社交平台, 所述预处理为对调研后的关键字以及正则表达式特殊字符进行 匹配提取。 c)将结构化数据与转换为结构化的非结构来源数据, 存储至漏洞业务库, 将漏洞业务 库中的特征维度与指纹库以及产品业务表、 包管 理器表进行关联, 形成关联表; 所述结构化 数据的来源 包含whiteSouce平台、 NVD、 Snyk。 7.根据权利要求5所述的多元异构漏洞整合建库 方法, 其特征在于: 所述数据建模采用 kettle数据抽取、 清洗、 入库方式; 所述特征维度包含:CVE_ID、 名称、 内容相似度、 cpe、 git 地址、 二进制源码内容; 所述指纹库是根据源码文件的内容进 行hash后的结果; 所述包 管理 器表, 包含maven、 pipy、 ruby、 go。 8.根据权利要求1所述的多元异构漏洞整合建库 方法, 其特征在于: 所述步骤三中包括 以下步骤,权 利 要 求 书 1/2 页 2 CN 113961786 A 2a)通过分词工具进行分词, 分词后通过机器学习模组进行 学习, 并且提取其特 征; b)通过特征词数量 排序后, 进行 人工干预, 建立分类表; c)通过SparkMlib对同漏洞的相似维度进行打分, 进行人工设置阈值, 直到达到大于 N%的合理阈值; d)通过流处理框架对每条整合后的数据进行流处理, 将打分后的内容进行替换, 得到 去重后及互补后的标准漏洞结果, 与其它产品、 版本、 附属产品的关系进行关联, 存入图数 据库中。 9.根据权利要求8所述的多元异构漏洞整合建库方法, 其特征在于: 所述分词工具为 jieba中文分词 工具, 所述机器学习模组为SparkMlib决策树; 所述人工干预为进行低质量 与高质量词汇分类。 10.根据权利要求1所述的多元异构漏洞整合建库方法, 其特征在于: 所述步骤四中包 括以下步骤, a)打成jar包后, 通过docker进行镜像打包, 推送至公共镜像地址; b)通过ranc her进行容器管理; c)通过Jenkins, 配置gitlab与docker、 及rancher的触发关系, 使得更新源码后, 立即 更新部署。权 利 要 求 书 2/2 页 3 CN 113961786 A 3
专利 多元异构漏洞整合建库方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-19 02:02:12
上传分享
举报
下载
原文档
(367.5 KB)
分享
友情链接
工商银行 2021网络金融黑产研究报告.pdf
GB-T 33822-2017 纳米磷酸铁锂.pdf
GB-T 42381.120-2023 数据质量 第120部分:主数据:特征数据交换:溯源性.pdf
GB-T 38638-2020 信息安全技术 可信计算 可信计算体系结构.pdf
奇安信 中国实战化白帽人才能力白皮书.pdf
GB-T 26775-2011 车载音视频系统通用技术条件.pdf
DB65-T3105-2023 平欧杂种榛栽培技术规程 新疆维吾尔自治区.pdf
GB-T 32916-2023 信息安全技术 信息安全控制评估指南 ISO 27008-2019.pdf
GB-T 34709-2017 硅胶通用试验方法.pdf
GB-T 10067.31-2013 电热装置基本技术条件 第31部分:中频无心感应炉.pdf
T-CHTS 10045—2021 公路货运车辆超限超载动态监测系统技术要求.pdf
GB-T 14055.1-2008 中子参考辐射 第1部分:辐射特性和产生方法.pdf
GB-T 37932-2019 信息安全技术 数据交易服务安全要求.pdf
DB32-T 4640-2024 燃气工业锅炉节能监测规范 江苏省.pdf
DB37-T 4314—2021 1:50000水文地质调查编图规范 山东省.pdf
专利 SOAR剧本模型、剧本构建方法、电子设备和存储介质.PDF
GB-T 38664.2-2020 信息技术 大数据 政务数据开放共享 第2部分:基本要求.pdf
T-DZJN 80—2022 数据中心用锂离子电池设备产品技术标准.pdf
GB 21148-2020 足部防护 安全鞋.pdf
DB65-T 4075-2017 电子政务外网承载规范 新疆维吾尔自治区.pdf
1
/
3
10
评价文档
赞助3元 点击下载(367.5 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。