(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111203824.5
(22)申请日 2021.10.15
(71)申请人 哈尔滨工业大 学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
申请人 上海浦东发展银行股份有限公司
(72)发明人 于海宁 成燕 胡灵娟 彭凤杰
孙迎港 孙骁 尹莱莱
(74)专利代理 机构 哈尔滨市伟晨专利代理事务
所(普通合伙) 23209
代理人 李晓敏
(51)Int.Cl.
G06N 20/00(2019.01)
G06V 10/764(2022.01)
G06K 9/62(2022.01)
(54)发明名称
发起方权益保护的联邦提升树模型构建方
法、 系统、 设备及存 储介质
(57)摘要
本申请公开了一种发起方权益保护的联邦
提升树模型构建方法、 系统、 设备及存储介质, 属
于联邦学习技术领域。 解决了在联合训练模型时
发起方权益保护的问题。 本申请发起方与参与方
计算分位区间发送给协调方; 协调方计算平均的
分位数草图发送给发起方和参与方; 发起方和参
与方计算局部直方图, 并对局部直方图添加噪
声, 发送给协调方; 协调方计算全局直方图, 发送
给发起方与参与方; 发起方和参与方计算分裂点
的增益, 发送给协调方计算根节点; 协调方分裂
特征与分裂阈值发送给 发起方和参与方; 发起方
和参与方更新局部直方图; 发起方选择多个参与
方计算下一层节点, 重复以上过程进行训练, 得
到提升树。 本申请保护了数据隐私, 实现了联邦
学习场景。
权利要求书3页 说明书7页 附图2页
CN 113947212 A
2022.01.18
CN 113947212 A
1.发起方权益保护的联邦提升树模型构建方法, 其特 征在于, 具体步骤为:
S1发起方(guest)与所有参与方(host1,host2,...,hostn)根据自身所拥有数据特征
集合计算分位区间信息, 并将分位区间信息发送给协调方;
S2协调方整合所有分位区间信息, 计算平均的分位数草图, 分发给发起方和参与方;
S3发起方和参与 方利用分位数草图根据自身拥 有的数据特征集合, 计算每个特征的局
部直方图;
S4发起方和参与方 先对局部直方图添加噪声, 然后将局部直方图发送给协调方;
S5协调方将发起方和参与方的局部直方图合并为全局直方图, 并根据全局直方图训练
第一个树的根节点, 将计算出的分裂特 征与分裂阈值发送给发起方和参与方;
S6发起方接收到分裂特 征与分裂阈值后更新本地 直方图;
S7发起方根据更新的本地直方图计算树的下一层节点, 随机选择m%个参与方联合训
练左子树节点, 并随机选择m %个参与方联合训练右子树节 点, 所选参与方同样根据分裂特
征与分裂阈值计算本地 直方图;
S8重复步骤S4 ‑S7, 直至完成第一颗决策树上剩余子节点的训练;
S9重复步骤S8, 直至完成所有决策树的训练, 最终得到发起方权益保护的联邦提升树
模型。
2.根据权利要求1所述的发起方权益保护的联邦提升树模型构建方法, 其特征在于, 步
骤S1所述的计算分位区间信息的方法是采用的Gre enwald‑Khanna算法, 具体步骤如下:
S1.1发起方和参与方协调确定划分区间数, 或者发起方和参与方直接规定默认划分区
间数, 划分区间数设定为n, 数据平均分配到划分区间中: 定义每个划分区间数据占比为p,
则p=1/n; 定义划分区间数据占所有数据比例为L=[0,p,2p, …,1], L是一个列表, 列表内
数据总数即为划分区间数n;
S1.2发起方和参与方对于每个特征下所有样本S进行正序排序, 循环L, 每次循环取出
一个p, 则每个分位区间包含的数据条数K=p*S, 通过累加找到每次加K之后到达的样 本, 分
位区间点 为对应样本的特 征值;
S1.3整合所有区间点即为分位区间信息 。
3.根据权利要求1或2所述的发起方权益保护的联邦提升树模型构建方法, 其特征在
于, 步骤S3所述的局部直方图计算方法, 具体步骤如下:
局部直方图的构成是统计 每个特征下在分位区间中 g和h的值;
计算第i个样本损失函数的一阶导gi
第i个样本损失函数的二阶导hi
在具体计算时, 使用的是二阶泰勒展开的损失函数:
yi: 样本真实的Y值;权 利 要 求 书 1/3 页
2
CN 113947212 A
2样本预测的Y值;
K: 表示训练到第几棵树。
4.根据权利要求3所述的发起方权益保护的联邦提升树模型构建方法, 其特征在于, 步
骤S4所述的添加噪声的方法是通过Diffie ‑Hellman算法在发起方和参与方中生成相同的
随机数种子, 利用随机数种子生成随机数, 添加到 本地直方图信息中。
5.根据权利要求4所述的发起方权益保护的联邦提升树模型构建方法, 其特征在于, 步
骤S5所述的计算 根节点通过最大增益确定, 具体步骤如下:
S5.1在协调方找到第一个特征的全局直方图, 以第一个分位点对直方图划分, 分位点
左边直方图所有损失函 数的一阶导g的总和记为GL, 所有损失函 数的二阶导h的总和记为HL;
分位点右边直方图所有损失函数的一阶导g 的总和记为GR, 所有损失函数的二阶导h的总和
记为HR;
S5.2利用分位 点计算的GL、 HL、 GR、 HR来计算增益, 增益的计算公式为:
其中i代表整个数据集, IL指分到左节点的数据集, IR指分到右节点的数据集, λ和γ是
两个正则化 参数;
统计每个分位点下计算的增益, 找到当前特征下最大增益, 记录最大增益值与分位点
的值;
S5.3计算所有特征的最大增益值与对应的分位点值, 在所有特征的最大增益值中选出
最大值, 对应的特 征为分裂特 征, 对应的分位 点的值为分裂阈值;
S5.4协调方将分裂特 征与分裂阈值发送给发起方与参与方。
6.发起方权益保护的联邦提升树模型构建系统, 其特征在于, 包括发起方子系统、 参与
方子系统和协调方子系统;
发起方子系统和参与方子系统, 根据发起方和参与 方所拥有数据特征集合计算分位 区
间信息, 并将分位区间信息发送给协调方子系统;
协调方子系统, 整合所有分位区间信 息, 计算平均的分位数草图, 分发给发起方子系统
和参与方子系统;
发起方子系统和参与方子系统, 利用分位数草图根据发起方和参与 方拥有的数据 特征
集合, 计算每 个特征的局部直方图, 并对局部直方图添加噪声, 发送给协调方子系统;
协调方子系统, 将局部直方图合并为全局直方图, 并根据全局直方图训练第一个树的
根节点, 将计算出的分裂特 征与分裂阈值发送给发起方子系统和参与方子系统;
发起方子系统, 接收到分裂特征与分裂阈值后更新本地直方图; 并根据更新的本地直权 利 要 求 书 2/3 页
3
CN 113947212 A
3
专利 发起方权益保护的联邦提升树模型构建方法、系统、设备及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:01:31上传分享