iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111204831.7 (22)申请日 2021.10.15 (71)申请人 北京潞晨科技有限公司 地址 100089 北京市海淀区海淀西大街 48 号五层496号 (72)发明人 卞正达 李永彬 柳泓鑫  (74)专利代理 机构 北京卓岚智财知识产权代理 事务所 (特殊普通合伙) 11624 代理人 郭智 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/48(2006.01) G06N 20/00(2019.01) G06N 5/04(2006.01) (54)发明名称 一种基于人工智能的分布式训练和推理方 法、 系统、 设备和可读存 储介质 (57)摘要 本申请涉及人工智能领域, 涉及一种基于人 工智能的分布式训练和推理系统和方法, 训练中 调度分配适 当的计算资源, 动态调节系统硬件负 载, 依托多维并行技术, 将模型参数分解到各个 处理器上, 前向计算得到输出结果, 与训练数据 标签作对比得到损失函数值, 后向计算梯度, 用 于下一步更新模 型参数, 根据需要选择适当的优 化器, 依照计算的梯度对模型的参数进行更新, 微调针对具体应用继续训练模型。 完成训练的模 型进行实际应用的推理, 在推理过程中, 也可 以 采用上述的资源调度和多维并行技术。 本申请通 过在AI模型训练和推理过程中引入大规模分布 式, 降低AI对计算资源的消耗, 缩短训练推理时 间, 帮助最大化提升AI部署效率并将部署成本最 小化。 权利要求书3页 说明书21页 附图5页 CN 114035937 A 2022.02.11 CN 114035937 A 1.一种基于人工智能的分布式训练和推理方法, 用于硬件处理器, 所述方法执行于软 件平台, 使用机器学习库; 其特征在于, 所述方法包括 步骤: 获取多个AI任务的任务参数, 依据所述多个AI任务的任务参数获取调度决策, 将所述 多个AI任务分配至多个所述硬件处 理器上, 得到所述AI任务的计算资源; 获取所述分配至多个所述硬件处理器上的AI任务的计算资源, 对所述AI任务的训练任 务, 在各自硬件处 理器上执行多维并行处 理, 获取AI任务的输出 结果; 获取所述执行并行处理后的AI任务的并行处理结果, 针对所述AI任务的训练任务, 根 据模型当前输出结果计算梯度, 根据模型当前输出结果计算梯度, 采用所述AI任务对应的 优化器对所述AI任务进行优化处理, 得到优化处理后的AI模型参数, 不 断迭代模型参数进 行更新, 直至 达到目标迭代次数或训练结果已满足要求; 所述分配过程中使用优化 算法, 优化调度决策; 所述并行处 理方式包括数据并行、 序列并行、 流水并行、 多维网格并行处 理; 所述AI任务包括训练任务和推理任务。 2.如权利要求1所述的一种基于人工智能的分布式训练和推理方法, 其特征在于, 所述 获取所述执行并行处理后的AI任务的并行处理结果, 针对所述AI任务的训练任务, 根据模 型当前输出结果计算梯度, 采用所述AI任务对应的优化器对所述AI任务进行优化处理, 得 到优化处理后的AI模型参数, 不断迭代模型参数进行更新, 直至达到目标迭代 次数或训练 结果已满足要求后还 包括步骤: 对所述优化器处理后的所述AI任务的AI模型参数进行微调与预测, 通过微调针对具体 应用继续训练模型, 最终部署完成训练的模型进行实际应用的推理; 所述对所述AI任务的训练任务, 在各自硬件处理器上执行多维并行处理, 获取AI任务 的输出结果的进行 过程中, 还 包括步骤: 通过切分和/或卸载优化器状态, 梯度, 模型参数, 完成所述AI任务在所述硬件处理器 间的数据迁移; 所述AI任务包括图片处 理任务和/或自然语言处 理任务。 3.如权利要求1所述的一种基于人工智能的分布式训练和推理方法, 其特征在于, 所述 获取所述执行并行处理后的AI任务的并行处理结果, 针对所述AI任务的训练任务, 根据模 型当前输出结果计算梯度, 采用所述AI任务对应的优化器对所述AI任务进行优化处理, 得 到优化处理后的AI模型参数, 不断迭代模型参数进行更新, 直至达到目标迭代 次数或训练 结果已满足要求, 具体包括: 所述数据并行将所述AI任务分配到各个所述硬件处理器上, 获得所有所述硬件处理器 总共同时处 理的数据总批大小与每 个所述硬件处 理器的每次处 理数据批大小; 所述序列并行会进一步对数据进行切分和/或卸载和分配, 将每个所述AI任务放到多 个处理器; 所述流水并行, 将模型拆分成多段, 将每一段部署在不同的硬件处理器, 并按模型顺序 串接起来, 前一段的输出作为后一段的输入; 所述多维网格并行包括2维和/或2.5维和/或3维的网格并行。 4.如权利要求1所述的一种基于人工智能的分布式训练和推理方法, 其特征在于, 所述权 利 要 求 书 1/3 页 2 CN 114035937 A 2步骤获取所述执行并行处理后的AI任务的并行处理结果, 针对所述AI任务的训练任务, 根 据模型当前输出结果计算梯度, 采用所述AI任务对应的优化器对所述AI任务进行优化处 理, 得到优化处理后的A I模型参数, 不断迭代模 型参数进 行更新, 直至达到目标迭代次数或 训练结果已满足要求, 具体包括: 所述AI任务对应的优化器算法包括但不限于LAMB优化器和/或LARS优化器和/或 ConAdv优化器和/或La ‑Lars优化器; 所述LAMB、 LARS、 Co nAdv优化器适用于大批次训练, 所述LARS用于计算机 视觉相关AI任务的处 理; 所述LAMB用于自然语言处 理相关AI任务的处 理; 所述ConAdv适合速度需求高, 精度要求低的AI任务的处 理; 所述La‑Lars适用于通信带宽窄, 网络通信成本高的AI任务的处 理。 5.一种基于人工智能的分布式训练和推理系统, 用于硬件处理器, 所述系统执行于软 件平台, 使用机器学习库, 用于处 理多种应用数据; 所述硬件处 理器包括但不限于: CPU、 GPU、 FPGA、 TPU; 其特征在于, 所述系统包括: 调度模块, 获取多个AI任务的任务参数, 依据所述多个AI任务的任务参数获取调度决 策, 将所述多个AI任务分配至多个所述硬件处 理器上, 得到所述AI任务的计算资源; 多维并行模块, 获取所述分配至多个所述硬件处理器上的AI任务的计算资源, 对所述 AI任务的训练任务, 在各自硬件处 理器上执行多维并行处 理, 获取AI任务的输出 结果; 可扩展优化模块, 获取所述执行并行处理后的AI任务的并行处理结果, 针对所述AI任 务的训练任务, 根据模型当前输出结果计算梯度, 采用所述AI任务对应的优化器对所述AI 任务进行优化处理, 得到优化处理后的A I模型参数, 不断迭代模型参数进 行更新, 直至达到 目标迭代次数或训练结果已满足要求; 所述分配过程中使用优化 算法, 优化调度决策; 所述并行处 理方式包括数据并行、 序列并行、 流水并行、 多维网格并行处 理; 所述AI任务包括训练任务和推理任务。 6.如权利要求5所述的一种基于人工智能的分布式训练和推理系统, 其特征在于, 所述 系统还包括: 微调与推理模块, 对所述优化器处理后的所述AI任务的AI模型参数进行微调与预测, 通过微调针对具体 应用继续训练模型, 最终部署完成训练的模型进行实际应用的推理; 动态内存磁盘管理模块, 通过切分和/或卸载优化器状态, 梯度, 模型参数, 完成所述AI 任务在所述硬件处 理器间的数据迁移; 所述AI任务包括图片处 理任务和/或自然语言处 理任务。 7.如权利要求5所述的一种基于人工智能的分布式训练和推理系统, 其特征在于, 所述 多维并行模块, 获取所述分配至多个所述硬件处理器上的AI任务的计算资源, 对所述AI任 务的训练任务, 在各自硬件处 理器上执行多维并行处 理, 获取AI任务的输出 结果, 还包括: 所述数据并行将所述AI任务分配到各个所述硬件处理器上, 获得所有所述硬件处理器 总共同时处 理的数据总批大小与每 个所述硬件处 理器的每次处 理数据批大小; 所述序列并行会进一步对数据进行切分和/或卸载和分配, 将每个所述AI任务放到多权 利 要 求 书 2/3 页 3 CN 114035937 A 3

.PDF文档 专利 一种基于人工智能的分布式训练和推理方法、系统、设备和可读存储介质

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于人工智能的分布式训练和推理方法、系统、设备和可读存储介质 第 1 页 专利 一种基于人工智能的分布式训练和推理方法、系统、设备和可读存储介质 第 2 页 专利 一种基于人工智能的分布式训练和推理方法、系统、设备和可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。