iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111191163.9 (22)申请日 2021.10.13 (71)申请人 中国检验检疫科 学研究院 地址 100123 北京市海淀区高碑店北路甲3 号 申请人 北京工商大 学 (72)发明人 张紫娟 范春林 斗海峰 陈谊  张佳琳 武彩霞 陈辉 郭延迪  孙小然  (74)专利代理 机构 北京万象新悦知识产权代理 有限公司 1 1360 代理人 黄凤茹 (51)Int.Cl. G06V 10/77(2022.01) G06F 17/16(2006.01)G06N 20/00(2019.01) (54)发明名称 基于主成分分析和梯度提升决策树的油菜 蜜真伪鉴别方法 (57)摘要 本发明公布了一种基于主成分分析和梯度 提升决策树的油菜蜜真伪鉴别方法, 包括: 采集 和制备真假蜂蜜样品并生 成蜂蜜数据、 对蜂蜜数 据记录进行真假标注得到油菜蜜数据集、 使用主 成分分析法PCA对油菜蜜数据集降维、 使用 梯度 提升决策树算法GBDT构建油菜蜜真伪鉴别模型 并评估模型的有效性、 利用油菜蜜真伪鉴别模型 对待测蜂蜜进行真伪鉴别。 本发 明方法有效提高 均方根误差和AUC值, 降低了 数据特征 维数、 模型 训练时间和模 型复杂度, 可有效精 准地鉴别油菜 蜜的真伪, 避免了人工查看谱图进行真伪鉴别的 误差, 提升油菜 蜜真伪鉴别的准确率。 权利要求书4页 说明书10页 附图3页 CN 113902951 A 2022.01.07 CN 113902951 A 1.一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法, 包括: 采集和制备 真假蜂蜜样品并生成蜂蜜数据、 对蜂蜜数据记录进行真假标注得到油菜蜜数据集、 使用主 成分分析法PCA对油菜蜜数据集降维、 使用梯度提升决策树算法GBDT构建油菜蜜真伪鉴别 模型并评估模型 的有效性、 利用油菜蜜真伪鉴别模型对待测蜂蜜进行真伪鉴别; 包括下列 具体步骤: A: 采集和制备真假蜂蜜样品, 并生成油菜蜜数据; 通过核磁共振技术获取蜂蜜数据: 对蜂蜜样品进行NOESY  1D检测, 得到检测样品的核 磁共振氢信号谱图; 再对核磁共振氢信号谱图进行数字化转换, 得到反 映样品谱图特征 的 油菜蜜数据; 油菜蜜数据的一条记录包括反映油菜蜜样品核磁共振氢信号谱图的轮廓即蜂蜜各组 分含量分布的176个属性 值或特征值; B: 对油菜蜜数据记录进行真假蜂蜜标注, 得到油菜蜜数据集; 对步骤A中得到的油菜蜜数据中的每一条记录添加真假标签, 即真假标注维; 再给每一 条记录按照添加样本名称, 即样本名称维; 得到具有178维的油菜蜜数据集, 记为D; C: 使用主成分 分析法PCA对油菜蜜数据集D降维; 使用PCA对油菜蜜数据集D进行降维; 降维不包括真假标注维和样本名称维; 降维维度 按照方差比例确定; 首先对油菜蜜数据集D进行规范化, 使得数据中每一特征的取值平均值 为0, 方差为 1; 其次将规范化后的数据通过正交变换, 得到由多个线性无关的新特征表 示的 数据; 再将新特征按照方差大小进行排序, 并将排序后的特征依次称为第一主成分、 第二主 成分等; 计算每个特征的贡献率, 当前k个特征的贡献率之和大于等于 设定阈值时, 前k个特 征即为最终的特 征集合, 得到k维的油菜蜜数据集D ′; 具体地, 采用主成分 分析方法对油菜蜜数据集D进行计算的过程包括如下步骤: : 假设油菜蜜 蜜数据集D中有m条 数据, n个特 征, 组成n ×m蜂蜜数据矩阵X*, 如式(4)所示: 其中, xj为第j条蜂蜜数据; j=1, 2, …, m; C1)对X*的每一行进行零均值化, 其中每一行即各蜂蜜样本在特征下的取值; 减去该行 即该特征的均值, 得到蜂蜜零均值 化矩阵X, 如式(5)所示: 其中 μi为第i个特 征对应的平均值; C2)通过式(7)计算蜂蜜零均值 化矩阵X的协方差矩阵, 得到n ×n的协方差矩阵C: 权 利 要 求 书 1/4 页 2 CN 113902951 A 2C3)根据式(8)得到协方差矩阵C的特 征值和特 征向量: Cβi= λiβi, i=1, 2, ..., n    (8) 其中, βi为第i个特 征向量, λi为第i个特 征值且满足: λ1≥λ2≥...≥λn; C4)特征向量单位 化, 计算过程如式(9): 其中pi为第i个特 征向量的单位向量, 此时, 满足: C5)计算特 征值 λi的贡献率γi, 计算方式如式(10): 设定阈值为γ, 当前k个特征值的贡献率之和大于等于阈值γ时, 取前k个特征值对应 的单位特 征向量, 得到k ×n的单位特 征向量矩阵Q, 表示 为式(11): 其中k个主成分 即为前k个特 征值; C6)将单位特征向量矩阵Q与蜂蜜零均值化矩阵X相乘, 得到降维后k ×m的矩阵Y, 即k维 的油菜蜜数据集D ′, 表示为式(12): D: 使用梯度提升决策树 算法GBDT构建油菜蜜真伪鉴别模型; 对经PCA降维后得到的油菜蜜数据集D ′按比例划分为训练集和测试集, 进行GBDT模型 的训练, 然后对GBDT进行参数调整和优化, 获得训练好的最优的蜂蜜真伪鉴别模型, 记为 PCA‑GBDT; 其中使用网格搜索法进行参数调整和优化; 训练PCA‑GBDT模型具体是通过GBDT模型的基学习器的线性组合不断减小训练过程产 生的残差, 以达 到将数据分类的目的; 训练过程包括: 首先初始化 一个弱学习器, 计算此时训练集中每 个样本损失函数的负梯度值; 其次利用负梯度值拟合决策树, 并求出最佳的负梯度拟合 值; 然后使用最佳的负梯度拟合 值更新弱学习器, 得到第一个强学习器; 再将前一轮得到的强学习器作为本轮初始弱学习器, 不断迭代更新, 当迭代次数达到 设定值时, 输出的强学习器为 最终的分类 器;权 利 要 求 书 2/4 页 3 CN 113902951 A 3

.PDF文档 专利 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 第 1 页 专利 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 第 2 页 专利 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:01:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。