专利 一种电力系统深度强化学习紧急控制策略提取方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111188349.9 (22)申请日 2021.10.12 (71)申请人武汉大学地址 430072 湖北省武汉市武昌区珞珈山武汉大学申请人国网浙江省电力有限公司 (72)发明人张俊　高天露　戴宇欣　张科　许沛东　陈思远　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人许莲英 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G06Q 10/06(2012.01)G06Q 50/06(2012.01) (54)发明名称一种电力系统深度强化学习紧急控制策略提取方法 (57)摘要本发明提出了一种电力系统深度强化学习紧急控制策略提取方法。通过引入电力系统节点模型多个历史时刻的特征数据构建观测数据；进一步构建深度Q学习网络模型，并采用随机梯度下降优化算法进行优化训练得到电力系统紧急控制深度强化学习模型；基于已训练完成的深度 Q学习网络模型，在特定的故障场景下，生成数据集；并在此数据及上训练基于信息增益比的加权倾斜决策树模型，以完成策略提取；设定策略保真度指标、策略实际控制性能指标、模型复杂度指标，以评估不同超参数下的模型性能，从而根据实际需求选出最优模型，以用于电力系统紧急控制领域中。权利要求书4页说明书10页附图3页 CN 114004282 A 2022.02.01 CN 114004282 A 1.一种电力系统深度强化学习紧急控制策略提取方法，其特征在于，包括以下步骤；步骤1：引入电力系统节点模型多个历史时刻的特征数据构建观测数据；步骤2：引入深度Q学习网络模型，进一步将多组观测数据依次输入至深度Q学习网络模型，预测并得到负荷削减动作，进一步采用随机梯度下降优化算法进行优化训练得到电力系统紧急控制深度强化学习模型；步骤3：基于已训练完成的深度Q学习网络模型，在特定的故障场景下，生成数据集；步骤4：在信息增益比的加权倾斜决策树模型中每个非叶子节点下，将所述每个非叶子节点下下数据集中状态 ‑动作对数据输入于信息增益比的加权倾斜决策树模型中，并通过拟牛顿算法求解模型目标函数最小值，并得到该节点下模型最优参数，同时将该节点下数据集分为左子集、右子集，并构建左子节点、右子节点，循环上述步骤，直到满足算法终止条件；步骤5：设定策略保真度指标、策略实际控制性能指标、模型复杂度指标，以评估不同超参数下的模型性能，从而根据任务需求选出最优模型，用于电力系统紧急控制中。 2.根据权利要求1所述的电力系统深度强化学习紧急控制策略提取方法，其特征在于，步骤1所述观测数据，具体定义为： Xt＝[ut,ut+1,...,ut+L‑1]T ut+l＝{datat+l,p,j|1≤p≤P,1≤j≤J},l∈[0,L ‑1] 其中， Xt表示第t组观测数据， t表示第t组观测数据的起始时刻， L为正整数，为观测数据窗口长度； ut+k表示第t组观测数据中第l组观测数据，即电力系统多节点模型中第t+l个时刻的观测数据； datat+l,p,j表示第t组观测数据中第l步观测数据的第p个母线节点第j种类型的特征数据，即电力系统多节点模型中第t+l个时刻第p个电力系统节点第j种类型的特征数据， P表示电力系统节点的数量， J为节点特征的数量。 3.根据权利要求1所述的电力系统深度强化学习紧急控制策略提取方法，其特征在于，步骤2所述预测的负荷削减动作由电力系统母线节点切负荷百分比组合方式构成，每个母线节点都有两种削减负荷的方式，分别定义不动作和减载所述母线节点上总负荷的20％；深度Q学习网络模型预测的负荷削减动作的数量总共包含2H种， H为可控节点的数量；进一步，将动作所包含的动作进行整理及编号，即，定义动作集为： Y＝[0,1,. ..,y,...,2H‑1],y∈Ν。 4.根据权利要求1所述的电力系统深度强化学习紧急控制策略提取方法，其特征在于，步骤3所涉及的数据集具体生成步骤为：在深度Q学习网络模型训练完成之后，针对设定的故障场景，通过将电力系统t时刻至t+L ‑1时刻的特征量xt滚动输入DQN决策模型中，由该决策模型在动作集Y选择最优动作yt，并记录下每一步的模型输入、输出数据，构建状态 ‑动作对， (xt,yt)，以完成带标签数据集的生成；步骤3所述状态 ‑动作对数据集可表述为： S＝{(x1,y1),(x2,y2),(xi,yi),...,(xN,yN)} 其中， (xi,yi)表示状态动作对数据集中第i个状态动作对， xi表示状态 ‑动作对数据集中第i个状态动作对的电力系统状态量， yi表示状态 ‑动作对数据集中第i个状态动作对的控制动作， N表示状态 ‑动作对数据集中状态 ‑动作对的数量。 5.根据权利要求1所述的电力系统深度强化学习紧急控制策略提取方法，其特征在于，所述步骤4具体如下：权　利　要　求　书 1/4 页 2 CN 114004282 A 2步骤4.1：设定信息增益比的加权倾斜决策树模型中每一非叶子节点下，其输入条件为训练数据集S， (xi,yi)∈S,i＝1,2,3,...,M≤N，其中， M为当前节点下数据集样本数量， N为总样本数量；设定模型最大深度为D，当前节点深度为d；其中，根节点下训练数据集为步骤3生成的数据集S，其他非叶子结点下的训练数据集为其父节点的训练集划分得到的左子集S'L、右子集S'R；步骤4.2：基于数据集S创建模型根节点G，并令当前节点深度d＝0；步骤4.3：如果当前节点深度d＞模型最大深度D，则节点G设为叶子结点，其标签为数据集S内样本数量最多的对应标签k；否则，转步骤4.4；步骤4.4：如果数据集S内所有样本属于同一类别k，则节点G设为叶子结点，其标签为k；否则，转步骤4.5；步骤4.5：以单变量决策树方式初始化模型当前节点下参数θ，得到初始值θ0；步骤4.6：基于拟牛顿算法和初始值θ0求解模型目标函数最小值，并得到模型最优参数 θbest；其中， L( θ )为模型目标函数， λ为L2正则化项系数， θ为模型各节点下的待训练参数， ||θ ||2为θ 的二范数， H(S)为样本集合S的经验熵， H(S| θ )为样本集合S在 θ 下的条件经验熵；其中， K是样本总类别数； k表示样本中第k类样本标签； |Sk|是样本集合S中第k类样本数量， |S|是样本集合S总样本数量；其中， WL为所有样本分属左子集的权重之和， WR为所有样本分属右子集的权重之和， HL 为左子节点加权信息熵， HR为右子节点加权信息熵， M是该节点下样本集合S总样本数量， θ 为模型各节点下的待训练参数；其中，为样本(xi,yi)属于左子节点的权重， SL各样本关联属于左子节点权重信息的集合；其中，为样本(xi,yi)属于右子节点的权重， SR各样本关联属于右子节点权重信息的集合；其中， K是样本总类别数； k表示样本中第k类样本标签，为样本集合中k类别下样本属权　利　要　求　书 2/4 页 3 CN 114004282 A 3

专利 一种电力系统深度强化学习紧急控制策略提取方法

专利一种电力系统深度强化学习紧急控制策略提取方法