(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111203399.X
(22)申请日 2021.10.15
(71)申请人 北京潞晨科技有限公司
地址 100089 北京市海淀区海淀西大街 48
号五层496号
(72)发明人 卞正达 李永彬 柳泓鑫
(74)专利代理 机构 北京卓岚智财知识产权代理
事务所 (特殊普通合伙)
11624
代理人 郭智
(51)Int.Cl.
G06F 9/50(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于人工智能的多维并行处理方法、 系
统、 设备和可读存 储介质
(57)摘要
本申请属于人工智能领域, 涉及一种基于人
工智能的多维并行处理系统和方法。 训练过程
中, 通过数据并行, 自动管理待处理数据, 将待处
理数据分配到硬件处理器上; 序列并行, 对数据
进行切分和分配, 将每个待处理数据放到多个处
理器; 流水并行, 将模型分成多段, 各段部署在不
同的硬件处理器, 并按模型顺序串接, 以及多维
模型并行, 对调度到所述处理器的所述待处理数
据的训练模 型执行网络模型划分, 将训练模型调
度至多个所述处理器中, 优化器对模 型的参数进
行更新完成训练过程。 在推理过程中, 也采用上
述的资源调度和多维 并行技术。 通过在AI模型训
练和推理过程中引入多维并行处理, 降低AI对计
算资源的消耗, 提升人工智能部署效率并最小化
部署成本 。
权利要求书3页 说明书18页 附图7页
CN 114035936 A
2022.02.11
CN 114035936 A
1.一种基于人工智能的多维并行处理方法, 用于硬件处理器, 所述方法执行于软件平
台, 使用机器学习库;
其特征在于, 所述方法包括 步骤:
数据并行, 自动管理来自用户请求的待处理数据, 将所述待处理数据分配到各个所述
硬件处理器上;
序列并行, 进一步对待处理数据中的长序列数据进行切分, 将每个所述待处理数据进
行序列划分放到多个所述处 理器中;
流水并行, 将模型拆分成多段, 将每一段部署在不同的硬件处理器, 并按模型顺序串接
起来, 前一段的输出作为后一段的输入;
多维模型并行, 针对调度到所述处理器的所述待处理数据的训练模型执行网格模型划
分, 将所述训练模型调度至多个所述处 理器中;
所述待处 理数据包括图片处 理任务和/或自然语言处 理任务;
所述多维模型并行包括2维和/或2.5维和/或3维的网格并行。
2.如权利要求1所述的一种基于人工智能的多维并行处理方法, 其特征在于, 所述步骤
数据并行, 自动管理来自用户请求的待处理数据, 将所述待处理数据分配到各个所述硬件
处理器上还 包括:
所述数据并行中数据被划分, 每一个节点或者进程都有一份模型, 各个节点取不同的
数据的batch size, 然后各自完成前向和后向的计算得到梯度, 这些进行训练的进程为
worker, 除了worker, 还有 参数服务器, ps server, 这些worker会把各自计算得到的梯度送
到ps server, 由ps server来进行update操作, 把update后的模型 再传回各个节点;
所述数据并行能扩大等效batch size, 即等效批次大小, 通过并行处理器数*单个处理
器batch size计算, 加速计算。
3.如权利要求1所述的一种基于人工智能的多维并行处理方法, 其特征在于, 所述序列
并行, 进一步对待处理数据中的长序列数据进行切分, 将每个所述待处理数据进行序列划
分放到多个所述处 理器中, 具体包括:
所述序列并行延长transformer类模型所接收数据的长度, 处理NLP中的长文本和CV任
务中的高分辨率图片, 即大图片和/或视频, 其中图片可以切割成小块的图片, 所有小图片
依次排列也是序列; 视频本身就是图片的序列, 每张图片进行 再切分;
在获取到计算资源后, 所述图片处理任务和/或图片的特征数据进行处理, 通过数据并
行, 被分配到各个处理器上, 包括但不限于GPU/CPU/TPU, 序列并行会进一步对数据进行切
分和分配;
如果单个数据长度 大于阈值, 则单个处理器无法处理, 序列并行切分后, 一个数据放到
多个处理器;
计算时通过通信, 等效为在直接处 理整个完整数据。
4.如权利要求1所述的一种基于人工智能的多维并行处理方法, 其特征在于, 多维模型
并行, 针对调度到所述处理器的所述待处理数据的训练模型执行网格模型划分, 将所述训
练模型调度至多个所述处 理器中, 具体包括:
所述2维网格并行采用可量型稠密矩阵乘法SUMMA与 算法矩阵,利用二维矩阵分割的高
效可扩展模型并行模式;权 利 要 求 书 1/3 页
2
CN 114035936 A
2所述2.5维网格并行设计出一个可量化的新型深度学习模型并行架构, 最小化图形处
理器之间昂贵的传输损失, 并提供一个灵活高效的架构, 进一步提高模型并行 的速度以及
效率;
所述3维网格并行采用3D并行矩阵乘法, 将每个矩阵按行和列分成很多小块, 将大矩阵
相乘拆分成很多个小矩阵的相乘, 将矩阵存 储平摊到整个处 理器上。
5.一种基于人工智能的多维并行处理系统, 用于硬件处理器, 所述系统执行于软件平
台, 使用机器学习库;
数据并行模块, 自动管理来自用户请求的待处理数据, 将所述待处理数据分配到各个
所述硬件处 理器上;
序列并行模块, 进一步对待处理数据中的长序列数据进行切分, 将每个所述待处理数
据进行序列划分放到多个所述处 理器中;
流水并行模块, 将模型拆分成多段, 将每一段部署在不同的硬件处理器, 并按模型顺序
串接起来, 前一段的输出作为后一段的输入;
多维模型并行模块, 针对调度到所述处理器的所述待处理数据的训练模型执行网格模
型划分, 将所述训练模型调度至多个所述处 理器中;
所述待处 理数据包括图片处 理任务和/或自然语言处 理任务;
所述多维模型并行包括2维和/或2.5维和/或3维的网格并行。
6.如权利要求5所述的一种基于人工智能的多维并行处理系统, 其特征在于, 所述数据
并行模块, 自动管理来自用户请求的待处理数据, 将所述待处理数据分配到各个所述硬件
处理器上还 包括:
所述数据并行中数据被划分, 每一个节点或者进程都有一份模型, 各个节点取不同的
数据的batch size, 然后各自完成前向和后向的计算得到梯度, 这些进行训练的进程为
worker, 除了worker, 还有 参数服务器, ps server, 这些worker会把各自计算得到的梯度送
到ps server, 由ps server来进行update操作, 把update后的模型 再传回各个节点;
所述数据并行能扩大等效batch size, 即等效批次大小, 通过并行处理器数*单个处理
器batch size计算, 加速计算。
7.如权利要求5所述的一种基于人工智能的多维并行处理系统, 其特征在于, 所述序列
并行模块, 进一步对待处理数据中的长序列数据进行切分, 将每个所述待处理数据进行序
列划分放到多个所述处 理器中,具体包括:
所述序列并行延长transformer类模型所接收数据的长度, 处理NLP中的长文本和CV任
务中的高分辨率图片, 即大图片和/或视频, 其中图片可以切割成小块的图片, 所有小图片
依次排列也是序列; 视频本身就是图片的序列, 每张图片也可以再切分;
在获取到计算资源后, 所述图片处理任务和/或图片的特征数据进行处理, 通过数据并
行, 被分配到各个处理器上, 包括但不限于GPU/CPU/TPU, 序列并行会进一步对数据进行切
分和分配;
如果单个数据长度 大于阈值, 则单个处理器无法处理, 序列并行切分后, 一个数据放到
多个处理器;
计算时通过通信, 等效为在直接处 理整个完整数据。
8.如权利要求5所述的一种基于人工智能的多维并行处理系统, 其特征在于, 所述多维权 利 要 求 书 2/3 页
3
CN 114035936 A
3
专利 一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:59:14上传分享