iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111186563.0 (22)申请日 2021.10.12 (71)申请人 南京航空航天大 学 地址 210016 江苏省南京市秦淮区御道街 29号 (72)发明人 周大可 唐慕尧 杨欣  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 代理人 王安琪 (51)Int.Cl. G08G 1/08(2006.01) G08G 1/081(2006.01) G06N 20/00(2019.01) (54)发明名称 一种结合状态预测的深度强化学习交通信 号控制方法 (57)摘要 本发明公开了一种结合状态预测的深度强 化学习交通信号控制方法, 包括如下步骤: (1)路 网环境、 车流数据建模; (2)深度强化学习算法选 择与三要素设计; (3)预测未来的交通状态; (4) 训练模型; (5)实验测试。 本发明能够缩短车辆的 等待时间, 提高路网的通行效率。 权利要求书1页 说明书5页 附图1页 CN 113963555 A 2022.01.21 CN 113963555 A 1.一种结合状态预测的深度强化学习交通信号控制方法, 其特 征在于, 包括如下步骤: (1)路网环境、 车流数据建模; 用SUMO对路网进行建模, 包括单路口以及多路口, 根据现 实交通场景的情形模拟车辆的生成; (2)深度强化学习算法选择与三要素设计; 选择DRL智能体控制交通信号, 采用DTSE的 方式精心设计状态, 包含路网中多种交通信息, 并根据实际情况设计动作 与奖励; (3)预测未来的交通状态; 使用动态分配、 卡尔曼滤波或神经网络方法对步骤(2)中设 计的状态进行 预测, 预测状态将与当前状态一 起输入DRL智能体进行最优决策; (4)训练模型; 选择合适的优化器以及设置超参数, 利用SUMO生成的车流数据对步骤 (2)中的DRL智能体以及步骤(3)中的预测模型进行训练, 训练完后保存最后的模型; (5)实验测试; 用同一分布生成的车流数据对发明的控制方法进行测试评估, 定义评价 指标, 并与其 他控制方法进行比较。 2.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法, 其特征在于, 步骤(1)中, 用SUMO仿真软件对路口进行建模, 每个路口都是双向六车道, 车流数据包括仿 真时长、 车辆生成方式、 车辆数目以及行驶轨迹, 车辆的生成服从韦伯分布, 设置三种车辆 密度, 分别对应低、 中、 高三种流 量条件, 每辆车以一定的概 率直行或是转弯。 3.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法, 其特征在于, 步骤(2)中, DRL模型采用D3QN, 使用经验回放来更新目标Q值, 将Q网络分为价值函数与优势 函数两部 分, 对网络结构进 行优化; 智能体状态设计如下: 按一定距离比例将车道分为若干 元胞, 计算每个元胞中车辆的数目、 平均速度和平均加速度, 作为数目向量、 速度向量和加 速度向量, 这三个 向量构成环境的状态向量; 动作定义为选择一个可能的绿灯相位, 包含4 种选择, 为南北方向直行和右转绿灯、 南北方向左转绿灯、 东西方向直行和右转绿灯、 东西 方向左转绿灯, 每个绿灯相位设置最小持续时间与最大持续时间, 绿灯和红灯切换期间会 执行一定时长的黄灯; 奖励定义为动作执行期间队列长度、 等待时间、 车辆延误、 通过路口 的车辆数目以及通过路口车辆的通行时间的加权和。 4.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法, 其特征在于, 步骤(3)中, 使用长短期记忆网络预测未来的微观状态, 即对步骤(2)中定义的每个元胞中 车辆的数目、 平均速度和平均加速度进行 预测, 预测步数由神经网络学习得到 。 5.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法, 其特征在于, 步骤(4)中, DRL相关超参数包括训练回合数、 经验池最小尺寸、 最大尺寸、 折扣因子; 深度Q 网络为全连接神经网络, 均方误差作为损失函数, 选用Adam优化器, 相关超参数包括深度、 宽度、 学习率、 批处理大小、 训练迭代次数; LSTM预测网络采用二值交叉熵作为损失函数, 选 用Adam优化器, 相关超参数包括单 元数、 层数、 神经 元个数、 批处 理大小、 训练迭代次数。 6.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法, 其特征在于, 步骤(5)中, 评价指标包括平均等待时间、 平均队列长度、 平均行驶时间、 平均CO排放、 平均 CO2排放, 对比算法选用韦伯斯特固定配时控制、 车辆驱动控制、 不加预测的D3Q N控制。权 利 要 求 书 1/1 页 2 CN 113963555 A 2一种结合状态预测的深度强化学习交通信号控制方 法 技术领域 [0001]本发明涉及智能交通信号控制技术领域, 尤其是一种结合状态预测的深度强化学 习交通信号控制方法。 背景技术 [0002]随着生活水平的提高, 汽车保有量持续增长, 城市的交通拥堵问题也日趋严重。 交 通信号控制是提高道路通行效率、 缓解交通拥堵最直接、 成本最低的途径, 传统的信控方法 主要包括固定配时控制、 感应控制和自适应控制等。 SCATS(Sydney  Coordinated  Adaptive   Traffic System)和SCOOT(Split  Cycle Offset Optimizing  Technique)是目前广泛使用 的自适应交通信控系统, 它们利用简化的交通模型求解最优的信号控制策略; 但是简化模 型的建立依赖大量的假设和经验方程, 在 复杂多变的真实交通场景下, 这类系统难以达到 最佳效果。 近年来, 随着人工智能技术的发展, 深度强化学习(Deep  Reinforcement   Learning, DRL)在交通信号控制方面展现出卓越的应用前 景。 [0003]DRL结合了DL的强感知能力与RL的强决策能力, 是一种 “试错”的学习方法, 通过与 环境交互来学习最优策略。 应用在交通信号控制中, 可以把一个或几个交叉口看成一个 Agent, Agent观测路网状态后做出决策, 通过最大化环境反馈的奖励以学习 最优的信号配 时方案。 Zheng等(ZHENG  G,XIONG Y,ZANG X,et al.Learning  phase competition  for  traffic signal control[C]//Proceedings  of the 28th ACM International   Conference  on Information  and Knowledge  Management.2019:19 63‑1972.)提出FRAP模 型, 利用不同信号相位间的竞争关系, 实现了在交通流中翻转和旋转等对称情况下 的普适 性。 Tan等(TAN  T,BAO F,DENG Y,et al.Cooperative  deep reinforcement learning  for  large‑scale traffic grid signal control[J].IEEE  transactions  on cybernetics, 2019,50(6):2687 ‑2700.)将大规模路网分为若干个子区域, 对每个区域, 使用Peraction   DQN或Wolpertinger  DDPG进行控制, 将所有Agent的学习策略传递给全局Agent实现全局学 习。 这些DRL信控方法本质上依赖于一阶马尔可夫决策过程, 仅使用当前的交通状态进 行决 策。 但是, 对于实际场景中复杂多变的交通流, 只有综合当前、 历史和未来状态才可能获得 最优控制策略。 [0004]现实交通流数据具有突变性、 实时性、 周期性等特征, 是典型的时序数据, 目前基 于DRL的信号控制方法都只是利用当前的交通状态 做决策, 控制效果有限。 发明内容 [0005]本发明所要解决的技术问题在于, 提供一种结合状态预测的深度强化学习交通信 号控制方法, 能够缩短车辆的等待时间, 提高路网的通行效率。 [0006]为解决上述技术问题, 本发明提供一种结合状态预测的深度强化学习交通信号控 制方法, 包括如下步骤: [0007](1)路网环境、 车流数据建模; 用SUMO对路网进行建模, 包括单路口以及多 路口, 根说 明 书 1/5 页 3 CN 113963555 A 3

.PDF文档 专利 一种结合状态预测的深度强化学习交通信号控制方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种结合状态预测的深度强化学习交通信号控制方法 第 1 页 专利 一种结合状态预测的深度强化学习交通信号控制方法 第 2 页 专利 一种结合状态预测的深度强化学习交通信号控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:00:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。