专利 一种基于干扰等级和通信代价的批调度系统及方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111672670.4 (22)申请日 2021.12.31 (71)申请人河海大学地址 210024 江苏省南京市鼓楼区西康路1 号 (72)发明人陆宇翔　许国艳　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 代理人张弛 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01) G06F 9/54(2006.01) G06F 9/455(2006.01) (54)发明名称一种基于干扰等级和通信代价的批调度系统及方法 (57)摘要本发明公开了一种基于干扰等级和通信代价的批调度系统及方法，包括批调度模块和GPU 调度优化模块，批调度模块对podgroup中pod进行调度，并判断podgroup是否有足够的pod调度成功，若满足要求则为这些pod绑定到对应节点；否则该podgroup中的所有pod回滚，等待重新调度； GPU调度优化模块计算podgroup中所有任务在GPU上的平均性能降级以及干扰等级；通过GP U 之间的模型同步代价和更新模型数据计算通信代价；将干扰等级和通信代价加权和作为适应度并使用混合蛙跳算法不断更新调度策略得到最终的调度策略。本发明通过插件化方式实现批调度，避免了引入其他调度器时造成的缓存一致性问题；结合干扰等级和通信代价，使用混合蛙跳算法来找寻全局最优解，可以有效提高分布式训练任务的效率。权利要求书5页说明书13页附图5页 CN 114253693 A 2022.03.29 CN 114253693 A 1.一种基于干扰等级和通信代价的批调度系统，其特征在于，包括批调度模块和GPU调度优化模块，批调度模块，用以对调度队列中的pod进行排序，使得同组pod位于调度队列的同一区域；从调度队列队头取出一个pod，根据用户为pod申请的资源，从节点列表中选出所有满足资源需求的节点，并按照打分策略对所有满足资源需求的节点进行打分，得到最高分节点；对最高分节点进行预调度处理，预占用节点资源；判断podgr oup中是否有足够的pod调度成功，若满足要求，则为这些pod绑定到对应节点；若不满足要求，则该podgroup中的所有pod 回滚，等待重新调度；其中，批调度以podgroup为单位， po d是由一个或多个共享网络、 CPU、 GPU等资源的容器组成的容器组； GPU调度优化模块，用以对GPU资源进行细粒度调度；从podgroup中选择一个任务，其中 pod为任务，且一个pod为一个任务；将选择的一个任务与GPU上正在运行的n个任务分别进行向量表示得到n+1个任务向量；将n +1个任务向量输入多层感知机，得到所选任务在GPU 上的平均性能降级；重新选择podgr oup中的任务，重复上述操作，直到得到podgr oup中所有任务在GPU上的平均性能降级后，计算得到干扰等级；定义GPU之间的模型同步代价为mscij；根据GPU之间的连接方式构建GPU拓扑树并根据GPU拓扑树权值计算mscij；定义更新模型数据为mudsij，使用同步代价和更新模型数据计算得到通信代价，并将通信代价加权后求和得到通信代价加权和；将干扰等级和通信代价加权和作为适应度，再使用混合蛙跳算法不断更新调度策略，得到最终的调度策略。 2.根据权利要求1所述的基于干扰等级和通信代价的批调度系统，其特征在于：在批调度模块中，根据pod所属podgroup的优先级进行排序，若优先级相同再根据podgroup的初始化时间戳进行排序；对于未指定podgroup的pod，调度器将该pod划分到默认的podgroup中；根据pod需要的资源，对集群的所有节点进行过滤，选出满足资源需求的节点；根据打分策略为节点打分，选出打分最高的节点，对最高分节点进行预调度处理，预占用节点资源；判断podgroup中是否有足够的pod调度成功，若在podgroup中设置的过期时间前满足要求，则为这些pod绑定到对应节点；若在该时间内未满足要求，则将该podgroup中的所有 pod回滚，释放预占用的资源，等待重新调度；其中，过期时间根据任务需求设置。 3.根据权利要求1所述的基于干扰等级和通信代价的批调度系统，其特征在于：在GPU 调度优化模块中，干扰等级的计算过程为：定义干扰感知的多层感知机： α1＝φ1(T1,T2,...,Tn+1) 其中， W1……WL‑1为权重矩阵， L是多层感知机层数；为权重矩阵的转置；权　利　要　求　书 1/5 页 2 CN 114253693 A 2b1……bL为偏置向量； g2……gL为Relu激活函数； h为输出层权重； hT为输出层权重的转置； α1……αL‑1为多层感知机中间层的输入； φ1……φL为多层感知机中间层的输出， T1……Tn+1 为任务向量； σ 为映射方法；为性能降级向量的预测值；在多层感知机的训练过程中，通过梯度下降算法更新权重矩阵W，来最小化性能降级向量的预测值与性能降级向量的目标值zt之间的均方损失，并使用正则化防止过拟合，损失函数L为：其中， λ为正则化权重； wt为训练样例权重； m为任务向量维数；将n+1个任务向量输入多层感知机，得到性能降级向量的预测值该性能降级向量的预测值有n+1个元素，分别对应n+1个任务的性能降级，再通过如下公式计算得到平均性能降级S Di：根据分布式训练所有子任务的平均性能降级，并根据如下计算公式得到干扰等级I (M)：其中， m为podgroup中的任务数量。 4.根据权利要求1所述的基于干扰等级和通信代价的批调度系统，其特征在于：在GPU 调度优化模块中，通信代价的计算过程为：定义GPUi与GPUj之间的模型同步代价为mscij，定义更新模型数据为mudsij；获取GPU之间的连接关系并根据该连接关系建立GPU拓扑树，根据GPU拓扑树权值计算模型同步代价m scij；根据模型同步代价m scij和更新模型数据mudsij计算得到通信代价C(M)，计算公式为：其中， n为GPU个数， i和j为GPU对应的的编号。 5.根据权利要求1所述的基于干扰等级和通信代价的批调度系统，其特征在于：在GPU 调度优化模块中，使用混合蛙跳算法不断更新调度策略的过程为：定义目标公式为： α I(M)+β C(M)；其中α， β 为权值；根据任务需求设置收敛值z和最大迭代次数g，其中 g的默认值为16；设置青蛙数量与待调度任务数量相同；通过目标公式计算每只青蛙的适应值，并将每只青蛙按照适应值从高到低进行排序得到排序后的种群；将排序后的种群划分为m个模因组，把每个模因组中适应值最好的青蛙标记为Fb，把排序后的种群中适应值最好的青蛙标记为Fg；通过将模因组中的每个青蛙向该模因组中适应值最好的青蛙进行跳动，来进行局部更权　利　要　求　书 2/5 页 3 CN 114253693 A 3

专利 一种基于干扰等级和通信代价的批调度系统及方法

专利一种基于干扰等级和通信代价的批调度系统及方法