iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111227632.8 (22)申请日 2021.10.21 (71)申请人 武汉大学 地址 430072 湖北省武汉市武昌区珞珈山 武汉大学 (72)发明人 卢宾宾 焦洋 韩静茹 董锦涛  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 代理人 王琪 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06N 20/00(2019.01) (54)发明名称 一种基于机器学习与规则匹配的民航事故 报告处理方法 (57)摘要 本发明涉及一种基于机器学习与规则匹配 的民航事故报告处理方法。 依据自然语 言处理的 方法对中文民用航空事故报告进行批量处理, 利 用机器学习分类器实现报告的自动分类, 采用基 于规则的方法对句子结构与内容进行分析, 并据 此实现事故原因的提取。 本发明实现了中文报告 的自动分类与原因提取, 避免了人为误差的引 入, 可以达 到更精确的效果, 也 提高了工作效率。 权利要求书2页 说明书8页 附图1页 CN 114004227 A 2022.02.01 CN 114004227 A 1.一种基于机器学习与规则匹配的民航事故报告处理方法, 其特征在于, 包括如下步 骤: 步骤1, 对民航事故报告数据进行 预处理, 筛选和规范用于处 理的报告; 步骤2, 对预处 理后的报告 进行中文分词、 词性识别, 并移除停用词; 步骤3, 选择tf ‑idf值高的词作为报告的文本特 征用于分类; 步骤4, 报告 文本向量 化, 构成可用于分类的数据集; 步骤5, 选择最佳分类 器对报告 文本进行分类, 得到事故类别; 步骤6, 建立原因识别规则, 用于提取事故原因。 2.如权利要求1所述的一种基于机器学习与规则匹配的民航事故报告处理方法, 其特 征在于: 步骤1中预 处理包含数据筛选和拼写标准化两步, 数据筛选根据报告内容是否对事 故发生的背景、 事故发生时飞行器的状态以及对事故的原因做出分析进行筛选, 若报告存 在以上内容, 则可作为事故原因提取 的数据; 拼写标准化是对事故报告中的错别字进行纠 正, 对缩写和同义词进行 标准化替换, 避免由于文本描述偏差而出现的特 征表示错误。 3.如权利要求2所述的一种基于机器学习与规则匹配的民航事故报告处理方法, 其特 征在于: 步骤2中通过分词对句子进行分割, 使其成为在当前语境下有独立意义的词; 为了 避免在分类时将一些复合专 业词汇分开, 还需要对文本内容进行分析构建民用航空领域的 专业词典; 中文分词后需进 行词性识别, 并建立专 业词汇对应的的词性表; 词性识别主要 是 对句内各词的词性进 行分析, 识别出的词性包括名词、 动词、 动名词、 动副词、 形容词、 副词、 量词、 代词、 连词、 介词、 助词, 词性识别结束后需要进 行停用词的移除, 停用词包括代词、 冠 词、 语气助词、 连接词和副词。 4.如权利要求3所述的一种基于机器学习与规则匹配的民航事故报告处理方法, 其特 征在于: 步骤3中选择可以最大化代表文本信息的词汇作为分类的依据, 可以达到更好的分 类效果; 特征选择可以实现数据的降维, 为了区分不同类别的文档, 作为特征的词汇在不同 类别的文本中的分布一定是不同的, 差异越大表示这个词对于分类越重要; 单个词汇的重 要性通过下式计算得到的tf ‑idf值进行衡量: 式中, xik为词汇i在类别k中的重要性度量, 即tf ‑idf值; fik为类别k的文档中词汇i出现 的频率; N为总的文档的数量; ni为所有包含词汇i的文档的数量, ni值越大, 则该词对于此种 文档的重要程度就越高; 将文本中词汇按照tf ‑idf值从大到小排序, 选择前M个构成词典作为该文本的特征用 于分类。 5.如权利要求4所述的一种基于机器学习与规则匹配的民航事故报告处理方法, 其特 征在于: 步骤4中将每个文本表示为与词典中词的个数等长的向量, 并根据文本中某个词出 现的次数为文本对应的数值向量赋值, 没有 出现的词对应的值为0, 构成可用于 分类的数据 集; 随后将数据集分离为训练集和测试集, 其中训练集用来对 备选的分类模型进 行训练, 测 试集用来对备选的分类模型的分类效果进行评估。 6.如权利要求5所述的一种基于机器学习与规则匹配的民航事故报告处理方法, 其特权 利 要 求 书 1/2 页 2 CN 114004227 A 2征在于: 步骤5中分类器包括逻辑回归分类器、 线性支持向量分类器、 支持向量分类器、 随机 森林分类器、 梯度提升分类器与XGBoost分类器; 以分类器和特征词数为 自变量, 首先使用 训练集对多种分类器进行训练, 然后使用测试集比较各分类器的分类效果; 考虑到不同事 故类别间存在数据不平衡, 根据测试集中每类事故报告占总报告中的百分比对每一类报告 的指标F1进行加权, 得到WEIGHTED ‑F1作为分类 器的性能评价, 计算方式如下: 式中, k为事故报告的类别数, N为事故报告的总数, ni为第i类报告的数量, F1i为第i类 报告测试机分类结果的F1值, WEIGHTED ‑F1为加权后的F1值; F1的计算方式如下: 式中, Precision反映了被判定为该类中真正属于该类的比例, Recall反映了该类被识 别出来的数量与该类总数的比例, F1 ‑score则是综合了Precision和Recall, 保证两者均不 会太低; Precision和Recal l的计算方式如下: 式中: TP为每一类中正确分类的个数, FP为不属于此类但被错误识别的个数, FN为属于 本类但却被识别为 其他类的个数; 在确定分类 器与对应的最佳 特征词个数后, 通过网格搜索得到分类 器的最佳参数。 7.如权利要求6所述的一种基于机器学习与规则匹配的民航事故报告处理方法, 其特 征在于: 步骤6中将事故原因归为设备、 人员、 环境及组织四类, 四类中又包含多个具体原 因; 设备原因包括动力系统故障、 部件失效、 起落架及轮胎故障、 电气及 控制系统失效、 自动 驾驶失效与传感器故障、 通讯设备断开、 设计缺陷、 客舱设备故障; 环境原因包括鸟击、 跑道 湿滑、 低能见度及恶劣天气、 风切变、 机组人员失能或乘客身体不适、 外来物袭击、 特殊地 形; 人为原因包括 飞行员误判、 飞行员违反规定、 飞行员准备不 足、 驾驶舱资源管理不善、 飞 行员分心及疏忽、 地勤 人员操作失误、 人为原因导致的驾驶舱与空管沟通 失效; 组织原因包 括飞行程序不完 善、 对操作实 践监督不足、 员工安全培训不足。 8.如权利要求7所述的一种基于机器学习与规则匹配的民航事故报告处理方法, 其特 征在于: 步骤6中事故报告中的每一句话都可以看作由不同元素的组合, 根据日常描述习 惯, 基于同一段描述内不同类别词的出现情况设置识别规则: 对于环境原因仅需识别出相 关的环境关键词, 设备原因通常是直接描述, 而对于人为原因和组织原因的描述多为主语、 谓语与补语的组合; 在 对事故的描述中, 主语提供了 责任单位, 谓语表明了主语的某种动作 或某项决定, 补语做出了对谓语的评价, 判断此种行为是否是会 对事故的发生产生影响。权 利 要 求 书 2/2 页 3 CN 114004227 A 3

.PDF文档 专利 一种基于机器学习与规则匹配的民航事故报告处理方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习与规则匹配的民航事故报告处理方法 第 1 页 专利 一种基于机器学习与规则匹配的民航事故报告处理方法 第 2 页 专利 一种基于机器学习与规则匹配的民航事故报告处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:30上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。