专利 一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111203399.X (22)申请日 2021.10.15 (71)申请人北京潞晨科技有限公司地址 100089 北京市海淀区海淀西大街 48 号五层496号 (72)发明人卞正达　李永彬　柳泓鑫　 (74)专利代理机构北京卓岚智财知识产权代理事务所 (特殊普通合伙) 11624 代理人郭智 (51)Int.Cl. G06F 9/50(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质 (57)摘要本申请属于人工智能领域，涉及一种基于人工智能的多维并行处理系统和方法。训练过程中，通过数据并行，自动管理待处理数据，将待处理数据分配到硬件处理器上；序列并行，对数据进行切分和分配，将每个待处理数据放到多个处理器；流水并行，将模型分成多段，各段部署在不同的硬件处理器，并按模型顺序串接，以及多维模型并行，对调度到所述处理器的所述待处理数据的训练模型执行网络模型划分，将训练模型调度至多个所述处理器中，优化器对模型的参数进行更新完成训练过程。在推理过程中，也采用上述的资源调度和多维并行技术。通过在AI模型训练和推理过程中引入多维并行处理，降低AI对计算资源的消耗，提升人工智能部署效率并最小化部署成本。权利要求书3页说明书18页附图7页 CN 114035936 A 2022.02.11 CN 114035936 A 1.一种基于人工智能的多维并行处理方法，用于硬件处理器，所述方法执行于软件平台，使用机器学习库；其特征在于，所述方法包括步骤：数据并行，自动管理来自用户请求的待处理数据，将所述待处理数据分配到各个所述硬件处理器上；序列并行，进一步对待处理数据中的长序列数据进行切分，将每个所述待处理数据进行序列划分放到多个所述处理器中；流水并行，将模型拆分成多段，将每一段部署在不同的硬件处理器，并按模型顺序串接起来，前一段的输出作为后一段的输入；多维模型并行，针对调度到所述处理器的所述待处理数据的训练模型执行网格模型划分，将所述训练模型调度至多个所述处理器中；所述待处理数据包括图片处理任务和/或自然语言处理任务；所述多维模型并行包括2维和/或2.5维和/或3维的网格并行。 2.如权利要求1所述的一种基于人工智能的多维并行处理方法，其特征在于，所述步骤数据并行，自动管理来自用户请求的待处理数据，将所述待处理数据分配到各个所述硬件处理器上还包括：所述数据并行中数据被划分，每一个节点或者进程都有一份模型，各个节点取不同的数据的batch size，然后各自完成前向和后向的计算得到梯度，这些进行训练的进程为 worker，除了worker，还有参数服务器， ps server，这些worker会把各自计算得到的梯度送到ps server，由ps server来进行update操作，把update后的模型再传回各个节点；所述数据并行能扩大等效batch size，即等效批次大小，通过并行处理器数*单个处理器batch size计算，加速计算。 3.如权利要求1所述的一种基于人工智能的多维并行处理方法，其特征在于，所述序列并行，进一步对待处理数据中的长序列数据进行切分，将每个所述待处理数据进行序列划分放到多个所述处理器中，具体包括：所述序列并行延长transformer类模型所接收数据的长度，处理NLP中的长文本和CV任务中的高分辨率图片，即大图片和/或视频，其中图片可以切割成小块的图片，所有小图片依次排列也是序列；视频本身就是图片的序列，每张图片进行再切分；在获取到计算资源后，所述图片处理任务和/或图片的特征数据进行处理，通过数据并行，被分配到各个处理器上，包括但不限于GPU/CPU/TPU，序列并行会进一步对数据进行切分和分配；如果单个数据长度大于阈值，则单个处理器无法处理，序列并行切分后，一个数据放到多个处理器；计算时通过通信，等效为在直接处理整个完整数据。 4.如权利要求1所述的一种基于人工智能的多维并行处理方法，其特征在于，多维模型并行，针对调度到所述处理器的所述待处理数据的训练模型执行网格模型划分，将所述训练模型调度至多个所述处理器中，具体包括：所述2维网格并行采用可量型稠密矩阵乘法SUMMA与算法矩阵,利用二维矩阵分割的高效可扩展模型并行模式；权　利　要　求　书 1/3 页 2 CN 114035936 A 2所述2.5维网格并行设计出一个可量化的新型深度学习模型并行架构，最小化图形处理器之间昂贵的传输损失，并提供一个灵活高效的架构，进一步提高模型并行的速度以及效率；所述3维网格并行采用3D并行矩阵乘法，将每个矩阵按行和列分成很多小块，将大矩阵相乘拆分成很多个小矩阵的相乘，将矩阵存储平摊到整个处理器上。 5.一种基于人工智能的多维并行处理系统，用于硬件处理器，所述系统执行于软件平台，使用机器学习库；数据并行模块，自动管理来自用户请求的待处理数据，将所述待处理数据分配到各个所述硬件处理器上；序列并行模块，进一步对待处理数据中的长序列数据进行切分，将每个所述待处理数据进行序列划分放到多个所述处理器中；流水并行模块，将模型拆分成多段，将每一段部署在不同的硬件处理器，并按模型顺序串接起来，前一段的输出作为后一段的输入；多维模型并行模块，针对调度到所述处理器的所述待处理数据的训练模型执行网格模型划分，将所述训练模型调度至多个所述处理器中；所述待处理数据包括图片处理任务和/或自然语言处理任务；所述多维模型并行包括2维和/或2.5维和/或3维的网格并行。 6.如权利要求5所述的一种基于人工智能的多维并行处理系统，其特征在于，所述数据并行模块，自动管理来自用户请求的待处理数据，将所述待处理数据分配到各个所述硬件处理器上还包括：所述数据并行中数据被划分，每一个节点或者进程都有一份模型，各个节点取不同的数据的batch size，然后各自完成前向和后向的计算得到梯度，这些进行训练的进程为 worker，除了worker，还有参数服务器， ps server，这些worker会把各自计算得到的梯度送到ps server，由ps server来进行update操作，把update后的模型再传回各个节点；所述数据并行能扩大等效batch size，即等效批次大小，通过并行处理器数*单个处理器batch size计算，加速计算。 7.如权利要求5所述的一种基于人工智能的多维并行处理系统，其特征在于，所述序列并行模块，进一步对待处理数据中的长序列数据进行切分，将每个所述待处理数据进行序列划分放到多个所述处理器中,具体包括：所述序列并行延长transformer类模型所接收数据的长度，处理NLP中的长文本和CV任务中的高分辨率图片，即大图片和/或视频，其中图片可以切割成小块的图片，所有小图片依次排列也是序列；视频本身就是图片的序列，每张图片也可以再切分；在获取到计算资源后，所述图片处理任务和/或图片的特征数据进行处理，通过数据并行，被分配到各个处理器上，包括但不限于GPU/CPU/TPU，序列并行会进一步对数据进行切分和分配；如果单个数据长度大于阈值，则单个处理器无法处理，序列并行切分后，一个数据放到多个处理器；计算时通过通信，等效为在直接处理整个完整数据。 8.如权利要求5所述的一种基于人工智能的多维并行处理系统，其特征在于，所述多维权　利　要　求　书 2/3 页 3 CN 114035936 A 3

专利 一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质

专利一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质