iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111203824.5 (22)申请日 2021.10.15 (71)申请人 哈尔滨工业大 学 地址 150001 黑龙江省哈尔滨市南岗区西 大直街92号 申请人 上海浦东发展银行股份有限公司 (72)发明人 于海宁 成燕 胡灵娟 彭凤杰  孙迎港 孙骁 尹莱莱  (74)专利代理 机构 哈尔滨市伟晨专利代理事务 所(普通合伙) 23209 代理人 李晓敏 (51)Int.Cl. G06N 20/00(2019.01) G06V 10/764(2022.01) G06K 9/62(2022.01) (54)发明名称 发起方权益保护的联邦提升树模型构建方 法、 系统、 设备及存 储介质 (57)摘要 本申请公开了一种发起方权益保护的联邦 提升树模型构建方法、 系统、 设备及存储介质, 属 于联邦学习技术领域。 解决了在联合训练模型时 发起方权益保护的问题。 本申请发起方与参与方 计算分位区间发送给协调方; 协调方计算平均的 分位数草图发送给发起方和参与方; 发起方和参 与方计算局部直方图, 并对局部直方图添加噪 声, 发送给协调方; 协调方计算全局直方图, 发送 给发起方与参与方; 发起方和参与方计算分裂点 的增益, 发送给协调方计算根节点; 协调方分裂 特征与分裂阈值发送给 发起方和参与方; 发起方 和参与方更新局部直方图; 发起方选择多个参与 方计算下一层节点, 重复以上过程进行训练, 得 到提升树。 本申请保护了数据隐私, 实现了联邦 学习场景。 权利要求书3页 说明书7页 附图2页 CN 113947212 A 2022.01.18 CN 113947212 A 1.发起方权益保护的联邦提升树模型构建方法, 其特 征在于, 具体步骤为: S1发起方(guest)与所有参与方(host1,host2,...,hostn)根据自身所拥有数据特征 集合计算分位区间信息, 并将分位区间信息发送给协调方; S2协调方整合所有分位区间信息, 计算平均的分位数草图, 分发给发起方和参与方; S3发起方和参与 方利用分位数草图根据自身拥 有的数据特征集合, 计算每个特征的局 部直方图; S4发起方和参与方 先对局部直方图添加噪声, 然后将局部直方图发送给协调方; S5协调方将发起方和参与方的局部直方图合并为全局直方图, 并根据全局直方图训练 第一个树的根节点, 将计算出的分裂特 征与分裂阈值发送给发起方和参与方; S6发起方接收到分裂特 征与分裂阈值后更新本地 直方图; S7发起方根据更新的本地直方图计算树的下一层节点, 随机选择m%个参与方联合训 练左子树节点, 并随机选择m %个参与方联合训练右子树节 点, 所选参与方同样根据分裂特 征与分裂阈值计算本地 直方图; S8重复步骤S4 ‑S7, 直至完成第一颗决策树上剩余子节点的训练; S9重复步骤S8, 直至完成所有决策树的训练, 最终得到发起方权益保护的联邦提升树 模型。 2.根据权利要求1所述的发起方权益保护的联邦提升树模型构建方法, 其特征在于, 步 骤S1所述的计算分位区间信息的方法是采用的Gre enwald‑Khanna算法, 具体步骤如下: S1.1发起方和参与方协调确定划分区间数, 或者发起方和参与方直接规定默认划分区 间数, 划分区间数设定为n, 数据平均分配到划分区间中: 定义每个划分区间数据占比为p, 则p=1/n; 定义划分区间数据占所有数据比例为L=[0,p,2p, …,1], L是一个列表, 列表内 数据总数即为划分区间数n; S1.2发起方和参与方对于每个特征下所有样本S进行正序排序, 循环L, 每次循环取出 一个p, 则每个分位区间包含的数据条数K=p*S, 通过累加找到每次加K之后到达的样 本, 分 位区间点 为对应样本的特 征值; S1.3整合所有区间点即为分位区间信息 。 3.根据权利要求1或2所述的发起方权益保护的联邦提升树模型构建方法, 其特征在 于, 步骤S3所述的局部直方图计算方法, 具体步骤如下: 局部直方图的构成是统计 每个特征下在分位区间中 g和h的值; 计算第i个样本损失函数的一阶导gi 第i个样本损失函数的二阶导hi 在具体计算时, 使用的是二阶泰勒展开的损失函数: yi: 样本真实的Y值;权 利 要 求 书 1/3 页 2 CN 113947212 A 2样本预测的Y值; K: 表示训练到第几棵树。 4.根据权利要求3所述的发起方权益保护的联邦提升树模型构建方法, 其特征在于, 步 骤S4所述的添加噪声的方法是通过Diffie ‑Hellman算法在发起方和参与方中生成相同的 随机数种子, 利用随机数种子生成随机数, 添加到 本地直方图信息中。 5.根据权利要求4所述的发起方权益保护的联邦提升树模型构建方法, 其特征在于, 步 骤S5所述的计算 根节点通过最大增益确定, 具体步骤如下: S5.1在协调方找到第一个特征的全局直方图, 以第一个分位点对直方图划分, 分位点 左边直方图所有损失函 数的一阶导g的总和记为GL, 所有损失函 数的二阶导h的总和记为HL; 分位点右边直方图所有损失函数的一阶导g 的总和记为GR, 所有损失函数的二阶导h的总和 记为HR; S5.2利用分位 点计算的GL、 HL、 GR、 HR来计算增益, 增益的计算公式为: 其中i代表整个数据集, IL指分到左节点的数据集, IR指分到右节点的数据集, λ和γ是 两个正则化 参数; 统计每个分位点下计算的增益, 找到当前特征下最大增益, 记录最大增益值与分位点 的值; S5.3计算所有特征的最大增益值与对应的分位点值, 在所有特征的最大增益值中选出 最大值, 对应的特 征为分裂特 征, 对应的分位 点的值为分裂阈值; S5.4协调方将分裂特 征与分裂阈值发送给发起方与参与方。 6.发起方权益保护的联邦提升树模型构建系统, 其特征在于, 包括发起方子系统、 参与 方子系统和协调方子系统; 发起方子系统和参与方子系统, 根据发起方和参与 方所拥有数据特征集合计算分位 区 间信息, 并将分位区间信息发送给协调方子系统; 协调方子系统, 整合所有分位区间信 息, 计算平均的分位数草图, 分发给发起方子系统 和参与方子系统; 发起方子系统和参与方子系统, 利用分位数草图根据发起方和参与 方拥有的数据 特征 集合, 计算每 个特征的局部直方图, 并对局部直方图添加噪声, 发送给协调方子系统; 协调方子系统, 将局部直方图合并为全局直方图, 并根据全局直方图训练第一个树的 根节点, 将计算出的分裂特 征与分裂阈值发送给发起方子系统和参与方子系统; 发起方子系统, 接收到分裂特征与分裂阈值后更新本地直方图; 并根据更新的本地直权 利 要 求 书 2/3 页 3 CN 113947212 A 3

.PDF文档 专利 发起方权益保护的联邦提升树模型构建方法、系统、设备及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 发起方权益保护的联邦提升树模型构建方法、系统、设备及存储介质 第 1 页 专利 发起方权益保护的联邦提升树模型构建方法、系统、设备及存储介质 第 2 页 专利 发起方权益保护的联邦提升树模型构建方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:01:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。