(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111188349.9
(22)申请日 2021.10.12
(71)申请人 武汉大学
地址 430072 湖北省武汉市武昌区珞珈山
武汉大学
申请人 国网浙江省电力有限公司
(72)发明人 张俊 高天露 戴宇欣 张科
许沛东 陈思远
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
代理人 许莲英
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 20/00(2019.01)
G06Q 10/06(2012.01)G06Q 50/06(2012.01)
(54)发明名称
一种电力系统深度强化学习紧急控制策略
提取方法
(57)摘要
本发明提出了一种电力系统深度强化学习
紧急控制策略提取方法。 通过引入电力系统节点
模型多个历史 时刻的特征数据构建观测数据; 进
一步构建深度Q学习网络模型, 并采用随机梯度
下降优化算法进行优化训练得到电力系统紧急
控制深度强化学习模型; 基于已训练完成的深度
Q学习网络模型, 在特定的故障场景下, 生成数据
集; 并在此数据及上训练基于信息增益比的加权
倾斜决策树模型, 以完成策略提取; 设定策略保
真度指标、 策略实际控制性能指标、 模型复杂度
指标, 以评估不同超参数下的模型性能, 从而根
据实际需求选出最优模型, 以用于电力系统紧急
控制领域中。
权利要求书4页 说明书10页 附图3页
CN 114004282 A
2022.02.01
CN 114004282 A
1.一种电力系统深度强化学习紧急控制策略提取 方法, 其特 征在于, 包括以下步骤;
步骤1: 引入电力系统节点模型多个历史时刻的特 征数据构建观测数据;
步骤2: 引入深度Q学习网络模型, 进一步将多组观测数据依次输入至深度Q学习网络模
型, 预测并得到负荷削减动作, 进一步采用随机梯度下降优化算法进行优化训练得到电力
系统紧急控制深度强化学习模型;
步骤3: 基于已训练完成的深度Q学习网络模型, 在特定的故障场景 下, 生成数据集;
步骤4: 在信 息增益比的加权倾斜决策树模型中每个非叶子节点下, 将所述每个非叶子
节点下下数据集中状态 ‑动作对数据输入于信息增益比的加权倾斜决策树模型中, 并通过
拟牛顿算法求解模型目标函数最小值, 并得到该节点下模型最优参数, 同时将该节点下数
据集分为左子集、 右子集, 并构建左子节点、 右子节点, 循环上述步骤, 直到满足算法终止条
件;
步骤5: 设定策略保真度指标、 策略实际控制性能指标、 模型复杂度指标, 以评估不同超
参数下的模型性能, 从而根据任务需求选出最优 模型, 用于电力系统紧急控制中。
2.根据权利要求1所述的电力系统深度强化学习紧急控制策略提取方法, 其特征在于,
步骤1所述观测数据, 具体定义 为:
Xt=[ut,ut+1,...,ut+L‑1]T
ut+l={datat+l,p,j|1≤p≤P,1≤j≤J},l∈[0,L ‑1]
其中, Xt表示第t组观测数据, t表示第t组观测数据的起始时刻, L为正整数, 为观测数据
窗口长度; ut+k表示第t组观测数据中第l组观测数据, 即电力系统多节点模型中第t+l个时
刻的观测数据; datat+l,p,j表示第t组观测数据中第l步观测数据的第p个母线节点第j种类
型的特征数据, 即电力系统多节点模型中第t+l个时刻第p个电力系统节点第j种类型的特
征数据, P表示电力系统节点的数量, J为节点特 征的数量。
3.根据权利要求1所述的电力系统深度强化学习紧急控制策略提取方法, 其特征在于,
步骤2所述预测的负荷削减动作由电力系统母线节点切负荷百分比组合方式构成, 每个母
线节点都有两种削减负荷的方式, 分别定义 不动作和减载 所述母线节点上总负荷的20%;
深度Q学习网络模型预测的负荷削减动作的数量总共包含2H种, H为可控节点的数量; 进
一步, 将动作所包 含的动作进行整理及编号, 即, 定义动作集 为:
Y=[0,1,. ..,y,...,2H‑1],y∈Ν。
4.根据权利要求1所述的电力系统深度强化学习紧急控制策略提取方法, 其特征在于,
步骤3所涉及的数据集具体生成步骤为: 在深度Q学习网络模型训练完成之后, 针对设定的
故障场景, 通过将电力系统t时刻至t+L ‑1时刻的特征量xt滚动输入DQN决策模型中, 由该决
策模型在动作集Y选择最优动作yt, 并记录下每一步的模型输入、 输出数据, 构建状态 ‑动作
对, (xt,yt), 以完成带 标签数据集的生成; 步骤3所述状态 ‑动作对数据集可表述 为:
S={(x1,y1),(x2,y2),(xi,yi),...,(xN,yN)}
其中, (xi,yi)表示状态动作对数据集中第i个状态动作对, xi表示状态 ‑动作对数据集
中第i个状态动作对的电力系统状态量, yi表示状态 ‑动作对数据集中第i个状态动作对的
控制动作, N表示状态 ‑动作对数据集中状态 ‑动作对的数量。
5.根据权利要求1所述的电力系统深度强化学习紧急控制策略提取方法, 其特征在于,
所述步骤4具体如下:权 利 要 求 书 1/4 页
2
CN 114004282 A
2步骤4.1: 设定信息增益比的加权倾斜决策树模型中每一非叶子节点下, 其输入条件为
训练数据集S, (xi,yi)∈S,i=1,2,3,...,M≤N, 其中, M为当前节点下数据 集样本数量, N为
总样本数量; 设定模型最大深度为D, 当前节点深度为d;
其中, 根节点下训练数据集为步骤3生成的数据集S, 其他非叶子结点下的训练数据集
为其父节点的训练集划分得到的左子集S'L、 右子集S'R;
步骤4.2: 基于数据集S创建模型根节点G, 并令当前节点深度d=0;
步骤4.3: 如果当前节点深度d>模型最大深度D, 则节点G设为叶子结点, 其标签为数据
集S内样本数量 最多的对应标签k; 否则, 转 步骤4.4;
步骤4.4: 如果数据集S内所有样本属于同一类别k, 则节点G设为叶子结点, 其标签为k;
否则, 转步骤4.5;
步骤4.5: 以单变量决策树方式初始化模型当前节点下参数θ, 得到初始值θ0;
步骤4.6: 基于拟牛顿算法和初始值θ0求解模型 目标函数最小值, 并得到模型最优参数
θbest;
其中, L( θ )为模型目标函数, λ为L2正则化项系数, θ为模型各节点下的待训练参数, ||θ
||2为θ 的二范 数, H(S)为样本集 合S的经验熵, H(S| θ )为样本集 合S在 θ 下的条件经验熵;
其中, K是样本总类别数; k表示样本中第k类样本 标签; |Sk|是样本集合S中第k类样本 数
量, |S|是样本集 合S总样本数量;
其中, WL为所有样本分属左子集的权重之和, WR为所有样本分属右子集的权重之和, HL
为左子节点加权信息熵, HR为右子节点加权信息熵, M是该节点下样本集合S总样本数量, θ
为模型各节点下的待训练参数;
其中,
为样本(xi,yi)属于左子节点的权重, SL各样本关联属 于左子节点权重信息的
集合;
其中,
为样本(xi,yi)属于右子节点的权重, SR各样本关联属于右子节点权重信息的
集合;
其中, K是样本总类别数; k表示样本中第k类样本标签,
为样本集合中k类别下样本属权 利 要 求 书 2/4 页
3
CN 114004282 A
3
专利 一种电力系统深度强化学习紧急控制策略提取方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:00:33上传分享