(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111209966.2
(22)申请日 2021.10.18
(65)同一申请的已公布的文献号
申请公布号 CN 114051228 A
(43)申请公布日 2022.02.15
(73)专利权人 清华大学
地址 100084 北京市海淀区清华园
(72)发明人 张彧 孙文亮 吴义辰 王军
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 尚伟净
(51)Int.Cl.
H04W 8/00(2009.01)
H04W 40/18(2009.01)
H04W 84/18(2009.01)G06N 20/00(2019.01)
(56)对比文件
CN 113015152 A,2021.0 6.22
US 91913 04 B1,2015.1 1.17
洪亮;罗鹏涛;燕熊;陈旿.一种基 于定向天
线的蜂群组网邻居发现算法. 《西北工业大 学学
报》 .2020,第38卷(第01期),
审查员 方苏叶
(54)发明名称
用于定向天线自组织网络的智能邻居发现
方法及装置
(57)摘要
本申请公开了一种用于定向天线自组织网
络的智能邻居发现方法及装置, 其中, 方法包括:
利用定向天线的收发模式及扫描方式构建强化
学习模型; 根据强化学习模型中的Q值表, 并采用
∈‑greedy算 法选择定向天线自组织网络中的节
点的收发模式与扫描 方向; 根据节 点的收发模式
发送或侦听握手包, 并基于握手包进行三步握手
交互; 通过节点检测交互过程中握手包的冲突,
根据冲突信息及收发模式确定强化学习模型中
的奖励值; 根据奖励值和预设学习算法更新强化
学习模型中的Q值表。 本申请的实施例通过学习
的方式, 不断地对天线的扫描策略进行调整, 能
够自适应的避免扫描 过程中发生的冲突, 且在握
手过程中没有冲突发生时, 也能进行链路发现的
加速, 是定向天线自组织网络中快速高效的邻居
发现方法, 具有良好的应用前 景。
权利要求书2页 说明书9页 附图4页
CN 114051228 B
2022.12.02
CN 114051228 B
1.一种用于 定向天线自组织网络的智能邻居发现方法, 其特 征在于, 包括以下步骤:
利用定向天线的收发模式及扫描方式构建强化学习模型;
根据所述强化学习模型中的Q值表, 并采用∈ ‑greedy算法选择定向天线自组织网络中
的节点的收发模式与扫描方向;
根据所述节点的收发模式发送或侦听握 手包, 并基于所述握 手包进行三 步握手交互;
通过节点检测交互过程中握手包的冲突, 根据冲突信 息及所述收发模式确定所述强化
学习模型中的奖励值; 以及
根据所述奖励值和预设学习算法更新所述强化学习模型中的Q 值表;
所述利用定向天线的收发模式及扫描方式构建强化学习模型, 包括:
控制所述定向天线按照扫描序列进行扫描, 基于所述扫描序列的序列号进行所述强化
学习模型中的状态建模;
选取发送或接收模式以及所述扫描序列中的指向信 息, 确定所述强化学习模型中的动
作建模;
基于发送模式、 接收模式、 与 所述扫描序列同向信息和/或反向信 息确定所述强化学习
模型中的状态空间建模;
所述根据 所述节点的收发模式发送或侦听握手包, 并基于所述握手包进行三步握手交
互, 包括:
处于发送模式的节点在第 一个子时隙发送带有本节点ID的握手包, 并且在第 二个子时
隙进行侦听, 其中, 若在所述第二个子时隙正确收到其他节 点的握手包, 则 在第三个子时隙
进行回复确认握手包, 若在所述第二个子时隙检测到冲突握手包, 则在所述第三个子时隙
进行回复冲突信息, 若在所述第二个子时隙未收到数据包或收到冲突信息, 则所述第三个
子时隙不发送信息;
处于接收模式的节点在所述第 一个子时隙进行侦听, 若在所述第 一个子时隙正确收到
所述其他节点的握手包, 则在所述第二个子时隙进行回复, 若在所述第一个子时隙检测到
所述冲突握手包, 则在所述第二个子时隙进行回复冲突信息, 若所述第一个子时隙未收到
所述数据包, 则在所述第二个子时隙不发送信息; 在所述第三个子时隙进行侦听;
所述Q值表的更新公式为:
其中, s与a分别表示当前的状态与选取的动作, α 为学习率, R表示奖励, λ表示奖励的折
扣系数, s ′与a′分别表示下一个 状态与对应的动作。
2.根据权利要求1所述的方法, 其特征在于, 所述采用∈ ‑greedy算法选择定向天线自
组织网络中的节点的收发模式与扫描方向, 包括:
以1‑∈的概率选取在当前状态下使Q 值最大的动作, 以∈的概 率选取任意动作。
3.根据权利要求1所述的方法, 其特征在于, 所述根据冲突信 息及所述收发模式确定所
述强化学习模型中的奖励值, 包括:
若所述节点处于所述发送模式且检测到冲突, 则奖励的取值 为‑1;
若所述节点处于所述接收模式且检测到冲突, 则奖励的取值 为1;
若所述节点成功进行链路发现且为所述发送模式, 则奖励的取值 为‑0.5;权 利 要 求 书 1/2 页
2
CN 114051228 B
2若所述节点成功进行链路发现且为所述接收模式, 则奖励的取值 为0.5;
若为其余情况下, 则所述奖励的取值 为0。
4.一种用于 定向天线自组织网络的智能邻居发现装置, 其特 征在于, 包括:
构建模块, 用于利用定向天线的收发模式及扫描方式构建强化学习模型;
动作选择模块, 用于根据所述强化学习模型中的Q值表, 并采用∈ ‑greedy算法选择定
向天线自组织网络中的节点的收发模式与扫描方向;
握手包交互模块, 用于根据所述节点的收发模式发送或侦听握手包, 并基于所述握手
包进行三 步握手交互;
奖励确定模块, 用于通过节点检测 交互过程中握手包的冲突, 根据冲突信息及所述收
发模式确定所述强化学习模型中的奖励值; 以及
学习更新模块, 用于根据所述奖励值和预设学习算法更新所述强化学习模型中的Q值
表;
所述构建模块, 具体用于, 控制所述定向天线按照扫描序列进行扫描, 基于所述扫描序
列的序列号进行 所述强化学习模型中的状态建模;
选取发送或接收模式以及所述扫描序列中的指向信 息, 确定所述强化学习模型中的动
作建模;
基于发送模式、 接收模式、 与 所述扫描序列同向信息和/或反向信 息确定所述强化学习
模型中的状态空间建模;
所述根据 所述节点的收发模式发送或侦听握手包, 并基于所述握手包进行三步握手交
互, 包括:
处于发送模式的节点在第 一个子时隙发送带有本节点ID的握手包, 并且在第 二个子时
隙进行侦听, 其中, 若在所述第二个子时隙正确收到其他节 点的握手包, 则 在第三个子时隙
进行回复确认握手包, 若在所述第二个子时隙检测到冲突握手包, 则在所述第三个子时隙
进行回复冲突信息, 若在所述第二个子时隙未收到数据包或收到冲突信息, 则所述第三个
子时隙不发送信息;
处于接收模式的节点在所述第 一个子时隙进行侦听, 若在所述第 一个子时隙正确收到
所述其他节点的握手包, 则在所述第二个子时隙进行回复, 若在所述第一个子时隙检测到
所述冲突握手包, 则在所述第二个子时隙进行回复冲突信息, 若所述第一个子时隙未收到
所述数据包, 则在所述第二个子时隙不发送信息; 在所述第三个子时隙进行侦听;
所述Q值表的更新公式为:
其中, s与a分别表示当前的状态与选取的动作, α 为学习率, R表示奖励, λ表示奖励的折
扣系数, s ′与a′分别表示下一个 状态与对应的动作。
5.一种电子设备, 其特征在于, 包括: 存储器、 处理器及存储在所述存储器上并可在所
述处理器上运行的计算机程序, 所述处理器执行所述程序, 以实现如权利要求 1‑3任一项所
述的用于 定向天线自组织网络的智能邻居发现方法。
6.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执
行, 以用于实现如权利要求1 ‑3任一项所述的用于定向天线自组织网络的智能邻居发现方法。权 利 要 求 书 2/2 页
3
CN 114051228 B
3
专利 用于定向天线自组织网络的智能邻居发现方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:02:49上传分享