专利 用于定向天线自组织网络的智能邻居发现方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111209966.2 (22)申请日 2021.10.18 (65)同一申请的已公布的文献号申请公布号 CN 114051228 A (43)申请公布日 2022.02.15 (73)专利权人清华大学地址 100084 北京市海淀区清华园 (72)发明人张彧　孙文亮　吴义辰　王军　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师尚伟净 (51)Int.Cl. H04W 8/00(2009.01) H04W 40/18(2009.01) H04W 84/18(2009.01)G06N 20/00(2019.01) (56)对比文件 CN 113015152 A,2021.0 6.22 US 91913 04 B1,2015.1 1.17 洪亮;罗鹏涛;燕熊;陈旿.一种基于定向天线的蜂群组网邻居发现算法. 《西北工业大学学报》 .2020,第38卷(第01期), 审查员方苏叶 (54)发明名称用于定向天线自组织网络的智能邻居发现方法及装置 (57)摘要本申请公开了一种用于定向天线自组织网络的智能邻居发现方法及装置，其中，方法包括：利用定向天线的收发模式及扫描方式构建强化学习模型；根据强化学习模型中的Q值表，并采用 ∈‑greedy算法选择定向天线自组织网络中的节点的收发模式与扫描方向；根据节点的收发模式发送或侦听握手包，并基于握手包进行三步握手交互；通过节点检测交互过程中握手包的冲突，根据冲突信息及收发模式确定强化学习模型中的奖励值；根据奖励值和预设学习算法更新强化学习模型中的Q值表。本申请的实施例通过学习的方式，不断地对天线的扫描策略进行调整，能够自适应的避免扫描过程中发生的冲突，且在握手过程中没有冲突发生时，也能进行链路发现的加速，是定向天线自组织网络中快速高效的邻居发现方法，具有良好的应用前景。权利要求书2页说明书9页附图4页 CN 114051228 B 2022.12.02 CN 114051228 B 1.一种用于定向天线自组织网络的智能邻居发现方法，其特征在于，包括以下步骤：利用定向天线的收发模式及扫描方式构建强化学习模型；根据所述强化学习模型中的Q值表，并采用∈ ‑greedy算法选择定向天线自组织网络中的节点的收发模式与扫描方向；根据所述节点的收发模式发送或侦听握手包，并基于所述握手包进行三步握手交互；通过节点检测交互过程中握手包的冲突，根据冲突信息及所述收发模式确定所述强化学习模型中的奖励值；以及根据所述奖励值和预设学习算法更新所述强化学习模型中的Q 值表；所述利用定向天线的收发模式及扫描方式构建强化学习模型，包括：控制所述定向天线按照扫描序列进行扫描，基于所述扫描序列的序列号进行所述强化学习模型中的状态建模；选取发送或接收模式以及所述扫描序列中的指向信息，确定所述强化学习模型中的动作建模；基于发送模式、接收模式、与所述扫描序列同向信息和/或反向信息确定所述强化学习模型中的状态空间建模；所述根据所述节点的收发模式发送或侦听握手包，并基于所述握手包进行三步握手交互，包括：处于发送模式的节点在第一个子时隙发送带有本节点ID的握手包，并且在第二个子时隙进行侦听，其中，若在所述第二个子时隙正确收到其他节点的握手包，则在第三个子时隙进行回复确认握手包，若在所述第二个子时隙检测到冲突握手包，则在所述第三个子时隙进行回复冲突信息，若在所述第二个子时隙未收到数据包或收到冲突信息，则所述第三个子时隙不发送信息；处于接收模式的节点在所述第一个子时隙进行侦听，若在所述第一个子时隙正确收到所述其他节点的握手包，则在所述第二个子时隙进行回复，若在所述第一个子时隙检测到所述冲突握手包，则在所述第二个子时隙进行回复冲突信息，若所述第一个子时隙未收到所述数据包，则在所述第二个子时隙不发送信息；在所述第三个子时隙进行侦听；所述Q值表的更新公式为：其中， s与a分别表示当前的状态与选取的动作， α 为学习率， R表示奖励， λ表示奖励的折扣系数， s ′与a′分别表示下一个状态与对应的动作。 2.根据权利要求1所述的方法，其特征在于，所述采用∈ ‑greedy算法选择定向天线自组织网络中的节点的收发模式与扫描方向，包括：以1‑∈的概率选取在当前状态下使Q 值最大的动作，以∈的概率选取任意动作。 3.根据权利要求1所述的方法，其特征在于，所述根据冲突信息及所述收发模式确定所述强化学习模型中的奖励值，包括：若所述节点处于所述发送模式且检测到冲突，则奖励的取值为‑1；若所述节点处于所述接收模式且检测到冲突，则奖励的取值为1；若所述节点成功进行链路发现且为所述发送模式，则奖励的取值为‑0.5；权　利　要　求　书 1/2 页 2 CN 114051228 B 2若所述节点成功进行链路发现且为所述接收模式，则奖励的取值为0.5；若为其余情况下，则所述奖励的取值为0。 4.一种用于定向天线自组织网络的智能邻居发现装置，其特征在于，包括：构建模块，用于利用定向天线的收发模式及扫描方式构建强化学习模型；动作选择模块，用于根据所述强化学习模型中的Q值表，并采用∈ ‑greedy算法选择定向天线自组织网络中的节点的收发模式与扫描方向；握手包交互模块，用于根据所述节点的收发模式发送或侦听握手包，并基于所述握手包进行三步握手交互；奖励确定模块，用于通过节点检测交互过程中握手包的冲突，根据冲突信息及所述收发模式确定所述强化学习模型中的奖励值；以及学习更新模块，用于根据所述奖励值和预设学习算法更新所述强化学习模型中的Q值表；所述构建模块，具体用于，控制所述定向天线按照扫描序列进行扫描，基于所述扫描序列的序列号进行所述强化学习模型中的状态建模；选取发送或接收模式以及所述扫描序列中的指向信息，确定所述强化学习模型中的动作建模；基于发送模式、接收模式、与所述扫描序列同向信息和/或反向信息确定所述强化学习模型中的状态空间建模；所述根据所述节点的收发模式发送或侦听握手包，并基于所述握手包进行三步握手交互，包括：处于发送模式的节点在第一个子时隙发送带有本节点ID的握手包，并且在第二个子时隙进行侦听，其中，若在所述第二个子时隙正确收到其他节点的握手包，则在第三个子时隙进行回复确认握手包，若在所述第二个子时隙检测到冲突握手包，则在所述第三个子时隙进行回复冲突信息，若在所述第二个子时隙未收到数据包或收到冲突信息，则所述第三个子时隙不发送信息；处于接收模式的节点在所述第一个子时隙进行侦听，若在所述第一个子时隙正确收到所述其他节点的握手包，则在所述第二个子时隙进行回复，若在所述第一个子时隙检测到所述冲突握手包，则在所述第二个子时隙进行回复冲突信息，若所述第一个子时隙未收到所述数据包，则在所述第二个子时隙不发送信息；在所述第三个子时隙进行侦听；所述Q值表的更新公式为：其中， s与a分别表示当前的状态与选取的动作， α 为学习率， R表示奖励， λ表示奖励的折扣系数， s ′与a′分别表示下一个状态与对应的动作。 5.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求 1‑3任一项所述的用于定向天线自组织网络的智能邻居发现方法。 6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1 ‑3任一项所述的用于定向天线自组织网络的智能邻居发现方法。权　利　要　求　书 2/2 页 3 CN 114051228 B 3

专利 用于定向天线自组织网络的智能邻居发现方法及装置

专利用于定向天线自组织网络的智能邻居发现方法及装置