(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111182323.3
(22)申请日 2021.10.1 1
(65)同一申请的已公布的文献号
申请公布号 CN 113889274 A
(43)申请公布日 2022.01.04
(73)专利权人 中山大学
地址 510275 广东省广州市海珠区新港西
路135号
(72)发明人 静进 李秀红 陈嘉洁 王馨
陈倩 戴美霞 林力孜 曹牧青
潘宁 林秀金 李海林 曾晶晶
刘斯宇 詹晓玲 金诚开 潘烁琳
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 郭浩辉 许羽冬
(51)Int.Cl.
G16H 50/30(2018.01)
G16H 10/60(2018.01)
G06K 9/62(2022.01)G06N 20/00(2019.01)
(56)对比文件
CN 112289412 A,2021.01.2 9
CN 112163512 A,2021.01.01
CN 110840468 A,2020.02.28
US 2020321121 A1,2020.10.08
JP 2020057053 A,2020.04.09
US 2020219619 A1,2020.07.09
Shaon Bhatta Shuvo et al. .A Data
Mining Based Ap proach to Predict Autis m
Spectrum Disorder Co nsidering Behavi oral
Attributes. 《2019 10th I nternati onal
Conference o n Computi ng, Communication
and Netw orking Technologies》 .2019,第1-4
页.
李雨彤 等.基 于随机森林算法构建孤独症
谱系障碍儿童辅助诊断模型. 《中国学校卫 生》
.2021,第42卷(第8 期),第1180-1183页.
审查员 叶淑星
(54)发明名称
一种孤独症谱系障碍的风险预测模型构建
方法及装置
(57)摘要
本发明公开了一种孤独症谱系障碍(ASD)的
风险预测模 型构建方法及装置, 该方法包括根据
样品集的病例信息, 建立第一数据表和第二数据
表, 并根据预设的特征排列规则和标志分组规
则, 得到第一分组表集和第二分组表集, 基于随
机森林机器学习算法, 对数据进行训练, 并导入
测试数据, 得到第一最佳特征 组合和第二特征组
合; 根据第一最佳特征组合和第二特征组合以及
对第一数据表和第二数据表的分层抽样, 并基于
随机森林算法, 分别得到第一模型和第二模型,
经过组合后完成孤独症谱系障碍风险预测模型
的构建。 本发明能根据样品集中测试条目的数
据, 准确并快捷的构建模型, 并对预测测试条目中的数据进行预测, 解决了现有预测模型准确性
不高的问题。
权利要求书3页 说明书10页 附图5页
CN 113889274 B
2022.09.13
CN 113889274 B
1.一种孤独症谱系障碍的风险预测模型构建方法, 其特 征在于, 包括:
根据孤独症谱系障碍样品集的病例信 息, 建立第 一数据表和第二数据表; 其中, 所述样
品集包括: 轻中度 ASD病例样本、 重度 ASD病例样 本和正常例样 本; 所述第一数据 表记录了正
常例样本与所有ASD病例样 本的病例 信息; 所述第二数据 表记录了轻中度 ASD病例样本与重
度ASD病例样本的病例信息; 每 个病例信息均包括特 征、 特征变量和标志;
根据预设的特征排列规则和标志分组规则, 分别对所述第一数据表、 所述第二数据表
执行特征排列和标志分组, 获得第一分组表集和 第二分组表 集; 其中, 所述第一分组表集包
括第一测试表集和第一训练表集, 所述第二分组表集包括第二测试表集和第二训练表集;
具体地, 基于预设的特征权重计算方式, 计算数据表中各个特征的权重值, 并依据 各个
特征的权重值对相应的特征进 行排序, 分别对 特征排序后的第一数据 表和第二数据表进 行
特征提取与添加, 得到第一序列表集和 第二序列 表集; 其中, 所述分别对特征排序后的第一
数据表和第二数据表进行特征提取与添加, 具体为: 分别对特征排序后的第一数据表和第
二数据表提取特征排列顺序前两个特征, 分别组成第一子序列表和第二子序列表, 随后分
别依次向第一子序列 表和第二子序列 表添加特征排列顺序后一个的特征, 直至第一数据 表
和第二数据表中所有 特征分别都添加完 毕, 分别得到多个第一子序列表和多个第二子序列
表, 分别将多个第一子序列表和多个第二子序列表进行组合, 分别得到第一序列表集和第
二序列表集; 根据预设的表格标志分组条件, 分别对所述第一序列表集中所有第一子序列
表和所述第二序列表集中所有第二子序列表进行标志的分层抽样, 均分的标志比例相同,
分别得到第一分组表集和第二分组表集;
根据随机森林机器学习算法, 分别将所述第 一训练表集和所述第 二训练表集进行训练
建模, 得到第一子模 型集和第二子模型集, 将所述第一测试表集导入至第一子模 型集, 得到
第一最佳特征组合; 将所述第二测试表集 导入至第二子模型集, 得到第二 最佳特征组合;
基于所述第 一最佳特征组合和所述第 二最佳特征组合, 以及对第 一数据表和第 二数据
表进行的分层抽样, 结合随机森林机器学习算法, 分别得到第一模型和第二模型;
具体地, 基于所述第一最佳特征组合, 对第一数据表中符合第一最佳特征组合的特征
进行分层抽样, 结合随机森林机器学习算法, 对分层抽样后的第一数据 表进行迭代运算, 得
到第一模型; 基于所述第二最佳特征组合, 对第二数据表中符合第二最佳特征组合的特征
进行分层抽样, 结合随机森林机器学习算法, 对分层抽样后的第二数据 表进行迭代运算, 得
到第二模型;
对所述第一模型和所述第二模型进行组合, 完成AS D风险预测模型的构建。
2.如权利要求1所述的一种 孤独症谱系障碍的风险预测模型构建方法, 其特征在于, 所
述根据样品集的病例信息, 建立第一数据表和第二数据表, 具体为:
根据样品集 中的轻中度ASD病例样本、 重度ASD病例样本和正常例样本, 进行ASD评估条
目数据信息的收集与预处理, 提取样本的特征、 特征变量和标志, 筛选出共有的特征变量,
并根据预设的计分方式来计算各特征变量在ASD测试指标数据信息中的分数, 筛选出能反
应ASD测试指标 数据信息得分情况的特 征变量, 建立第一数据表和第二数据表。
3.如权利要求2所述的一种 孤独症谱系障碍的风险预测模型构建方法, 其特征在于, 所
述根据随机森林机器学习算法, 分别将所述第一训练表集和所述第二训练表集进 行训练建
模, 得到第一子模型集和 第二子模型集; 将所述第一测试表 集导入至第一子模型集, 得到第权 利 要 求 书 1/3 页
2
CN 113889274 B
2一最佳特征组合; 将所述第二测试表 集导入至第二子模型集, 得到第二最佳特征组合, 具体
为:
根据随机森林机器学习算法, 分别将所述第 一训练表集和所述第 二训练表集进行训练
建模, 得到第一子模型集和第二子模型集;
将所述第一测试表集数据导入至第 一子模型集, 得到每一个第 一子模型对应的敏感度
与特异度, 经过均值求和后, 得到最大敏感度与特异度之和所对应的第一子模型中的特征
组合, 作为第一 最佳特征组合;
将所述第二测试表集数据导入至第 二子模型集, 得到每一个第 二子模型对应的敏感度
与特异度, 经过均值求和后, 得到最大敏感度与特异度之和所对应的第二子模型中的特征
组合, 作为第二 最佳特征组合。
4.如权利要求3所述的一种 孤独症谱系障碍的风险预测模型构建方法, 其特征在于, 所
述对所述第一模型和所述第二模型进行组合, 完成AS D风险预测模型的构建, 具体为:
对分层抽 样后的第 一数据表和分层抽 样后的第 二数据表提取其中一个测试样品, 将测
试样品中符合第一最佳特征组合的数据信息输入至第一模型中, 得到所述测试样品的第一
预测概率; 其中, 所述第一预测概 率包括所有AS D病例预测概 率和正常例预测概 率;
若所有ASD病例预测概率小于正常例预测概率, 则判断结果为测试样品是正常例; 若所
有ASD病例大于正常例概率, 则将测试样品中符合第二最佳特征组合的数据信息输入至第
二模型中, 得到所述测试样品的第二预测概率; 其中, 所述第二预测概率包括轻中度ASD病
例预测概 率和重度AS D病例预测概 率;
若轻中度ASD病例预测概率大于重度ASD病例预测概率, 则判断结果为测试样品是轻中
度ASD病例; 若 轻中度ASD病例预测概率小于重度 ASD病例预测概率, 则判断结果为测试样品
是重度AS D病例;
若判断结果与测试样品的实 际情况吻合, 将所述第一模型和所述第二模型进行组合,
即完成AS D风险预测模型的构建。
5.一种孤独症谱系障碍的风险预测模型构建装置, 其特征在于, 包括: 数据表建立模
块、 数据整理模块、 特 征提取模块和模型构建模块;
其中, 所述数据表建立模块用于根据样品集的病例信息, 建立第一数据表和第二数据
表; 其中, 所述样品集包括: 轻中度 ASD病例样 本、 重度ASD病例样 本和正
专利 一种孤独症谱系障碍的风险预测模型构建方法及装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:00:00上传分享