iso file download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111209966.2 (22)申请日 2021.10.18 (65)同一申请的已公布的文献号 申请公布号 CN 114051228 A (43)申请公布日 2022.02.15 (73)专利权人 清华大学 地址 100084 北京市海淀区清华园 (72)发明人 张彧 孙文亮 吴义辰 王军  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 尚伟净 (51)Int.Cl. H04W 8/00(2009.01) H04W 40/18(2009.01) H04W 84/18(2009.01)G06N 20/00(2019.01) (56)对比文件 CN 113015152 A,2021.0 6.22 US 91913 04 B1,2015.1 1.17 洪亮;罗鹏涛;燕熊;陈旿.一种基 于定向天 线的蜂群组网邻居发现算法. 《西北工业大 学学 报》 .2020,第38卷(第01期), 审查员 方苏叶 (54)发明名称 用于定向天线自组织网络的智能邻居发现 方法及装置 (57)摘要 本申请公开了一种用于定向天线自组织网 络的智能邻居发现方法及装置, 其中, 方法包括: 利用定向天线的收发模式及扫描方式构建强化 学习模型; 根据强化学习模型中的Q值表, 并采用 ∈‑greedy算 法选择定向天线自组织网络中的节 点的收发模式与扫描 方向; 根据节 点的收发模式 发送或侦听握手包, 并基于握手包进行三步握手 交互; 通过节点检测交互过程中握手包的冲突, 根据冲突信息及收发模式确定强化学习模型中 的奖励值; 根据奖励值和预设学习算法更新强化 学习模型中的Q值表。 本申请的实施例通过学习 的方式, 不断地对天线的扫描策略进行调整, 能 够自适应的避免扫描 过程中发生的冲突, 且在握 手过程中没有冲突发生时, 也能进行链路发现的 加速, 是定向天线自组织网络中快速高效的邻居 发现方法, 具有良好的应用前 景。 权利要求书2页 说明书9页 附图4页 CN 114051228 B 2022.12.02 CN 114051228 B 1.一种用于 定向天线自组织网络的智能邻居发现方法, 其特 征在于, 包括以下步骤: 利用定向天线的收发模式及扫描方式构建强化学习模型; 根据所述强化学习模型中的Q值表, 并采用∈ ‑greedy算法选择定向天线自组织网络中 的节点的收发模式与扫描方向; 根据所述节点的收发模式发送或侦听握 手包, 并基于所述握 手包进行三 步握手交互; 通过节点检测交互过程中握手包的冲突, 根据冲突信 息及所述收发模式确定所述强化 学习模型中的奖励值; 以及 根据所述奖励值和预设学习算法更新所述强化学习模型中的Q 值表; 所述利用定向天线的收发模式及扫描方式构建强化学习模型, 包括: 控制所述定向天线按照扫描序列进行扫描, 基于所述扫描序列的序列号进行所述强化 学习模型中的状态建模; 选取发送或接收模式以及所述扫描序列中的指向信 息, 确定所述强化学习模型中的动 作建模; 基于发送模式、 接收模式、 与 所述扫描序列同向信息和/或反向信 息确定所述强化学习 模型中的状态空间建模; 所述根据 所述节点的收发模式发送或侦听握手包, 并基于所述握手包进行三步握手交 互, 包括: 处于发送模式的节点在第 一个子时隙发送带有本节点ID的握手包, 并且在第 二个子时 隙进行侦听, 其中, 若在所述第二个子时隙正确收到其他节 点的握手包, 则 在第三个子时隙 进行回复确认握手包, 若在所述第二个子时隙检测到冲突握手包, 则在所述第三个子时隙 进行回复冲突信息, 若在所述第二个子时隙未收到数据包或收到冲突信息, 则所述第三个 子时隙不发送信息; 处于接收模式的节点在所述第 一个子时隙进行侦听, 若在所述第 一个子时隙正确收到 所述其他节点的握手包, 则在所述第二个子时隙进行回复, 若在所述第一个子时隙检测到 所述冲突握手包, 则在所述第二个子时隙进行回复冲突信息, 若所述第一个子时隙未收到 所述数据包, 则在所述第二个子时隙不发送信息; 在所述第三个子时隙进行侦听; 所述Q值表的更新公式为: 其中, s与a分别表示当前的状态与选取的动作, α 为学习率, R表示奖励, λ表示奖励的折 扣系数, s ′与a′分别表示下一个 状态与对应的动作。 2.根据权利要求1所述的方法, 其特征在于, 所述采用∈ ‑greedy算法选择定向天线自 组织网络中的节点的收发模式与扫描方向, 包括: 以1‑∈的概率选取在当前状态下使Q 值最大的动作, 以∈的概 率选取任意动作。 3.根据权利要求1所述的方法, 其特征在于, 所述根据冲突信 息及所述收发模式确定所 述强化学习模型中的奖励值, 包括: 若所述节点处于所述发送模式且检测到冲突, 则奖励的取值 为‑1; 若所述节点处于所述接收模式且检测到冲突, 则奖励的取值 为1; 若所述节点成功进行链路发现且为所述发送模式, 则奖励的取值 为‑0.5;权 利 要 求 书 1/2 页 2 CN 114051228 B 2若所述节点成功进行链路发现且为所述接收模式, 则奖励的取值 为0.5; 若为其余情况下, 则所述奖励的取值 为0。 4.一种用于 定向天线自组织网络的智能邻居发现装置, 其特 征在于, 包括: 构建模块, 用于利用定向天线的收发模式及扫描方式构建强化学习模型; 动作选择模块, 用于根据所述强化学习模型中的Q值表, 并采用∈ ‑greedy算法选择定 向天线自组织网络中的节点的收发模式与扫描方向; 握手包交互模块, 用于根据所述节点的收发模式发送或侦听握手包, 并基于所述握手 包进行三 步握手交互; 奖励确定模块, 用于通过节点检测 交互过程中握手包的冲突, 根据冲突信息及所述收 发模式确定所述强化学习模型中的奖励值; 以及 学习更新模块, 用于根据所述奖励值和预设学习算法更新所述强化学习模型中的Q值 表; 所述构建模块, 具体用于, 控制所述定向天线按照扫描序列进行扫描, 基于所述扫描序 列的序列号进行 所述强化学习模型中的状态建模; 选取发送或接收模式以及所述扫描序列中的指向信 息, 确定所述强化学习模型中的动 作建模; 基于发送模式、 接收模式、 与 所述扫描序列同向信息和/或反向信 息确定所述强化学习 模型中的状态空间建模; 所述根据 所述节点的收发模式发送或侦听握手包, 并基于所述握手包进行三步握手交 互, 包括: 处于发送模式的节点在第 一个子时隙发送带有本节点ID的握手包, 并且在第 二个子时 隙进行侦听, 其中, 若在所述第二个子时隙正确收到其他节 点的握手包, 则 在第三个子时隙 进行回复确认握手包, 若在所述第二个子时隙检测到冲突握手包, 则在所述第三个子时隙 进行回复冲突信息, 若在所述第二个子时隙未收到数据包或收到冲突信息, 则所述第三个 子时隙不发送信息; 处于接收模式的节点在所述第 一个子时隙进行侦听, 若在所述第 一个子时隙正确收到 所述其他节点的握手包, 则在所述第二个子时隙进行回复, 若在所述第一个子时隙检测到 所述冲突握手包, 则在所述第二个子时隙进行回复冲突信息, 若所述第一个子时隙未收到 所述数据包, 则在所述第二个子时隙不发送信息; 在所述第三个子时隙进行侦听; 所述Q值表的更新公式为: 其中, s与a分别表示当前的状态与选取的动作, α 为学习率, R表示奖励, λ表示奖励的折 扣系数, s ′与a′分别表示下一个 状态与对应的动作。 5.一种电子设备, 其特征在于, 包括: 存储器、 处理器及存储在所述存储器上并可在所 述处理器上运行的计算机程序, 所述处理器执行所述程序, 以实现如权利要求 1‑3任一项所 述的用于 定向天线自组织网络的智能邻居发现方法。 6.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行, 以用于实现如权利要求1 ‑3任一项所述的用于定向天线自组织网络的智能邻居发现方法。权 利 要 求 书 2/2 页 3 CN 114051228 B 3

.PDF文档 专利 用于定向天线自组织网络的智能邻居发现方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于定向天线自组织网络的智能邻居发现方法及装置 第 1 页 专利 用于定向天线自组织网络的智能邻居发现方法及装置 第 2 页 专利 用于定向天线自组织网络的智能邻居发现方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:02:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。