iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111678455.5 (22)申请日 2021.12.31 (71)申请人 上海交通大 学 地址 200240 上海市闵行区东川路80 0号 (72)发明人 陈榕 石林 夏虞斌 陈海波  臧斌宇  (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 代理人 胡晶 (51)Int.Cl. G06F 16/901(2019.01) G06F 16/903(2019.01) G06F 16/9032(2019.01) G06F 9/50(2006.01) (54)发明名称 面向大规模时序RDF图数据的查询方法及系 统 (57)摘要 本发明提供了一种面向大规模时序RDF图数 据的查询方法及系统, 包括: 步骤S1: 采用键 ‑值 存储方式将五元组格式的时序RDF图数据均匀地 加载和存储到多台机器的内存中; 步骤S2: 在每 台机器上创建若干个客户端线程和若干个工作 线程; 步骤S3: 客户端线程接收用户的查询请求, 并对用户的查询请求进行解析, 将解析后的查询 请求发送至相应机器的工作线程; 步骤S4: 工作 线程执行查询任务得到最终查询结果; 步骤S5: 工作线程将查询结果返回至客户端 线程。 权利要求书2页 说明书7页 附图2页 CN 114417066 A 2022.04.29 CN 114417066 A 1.一种面向大规模时序RDF图数据的查询方法, 其特 征在于, 包括: 步骤S1: 采用键 ‑值存储方式将五元组格式的时序RDF图数据均匀地加载和存储到多台 机器的内存中; 步骤S2: 在每台机器上创建若干个客户端 线程和若干个工作线程; 步骤S3: 客户端线程接收用户的查询请求, 并对用户的查询请求进行解析, 将解析后的 查询请求发送至相应机器的工作线程; 步骤S4: 工作线程基于解析后的查询请求执 行查询任务得到最终查询结果; 步骤S5: 工作线程将查询结果返回至客户端 线程。 2.根据权利要求1所述的面向大规模时序RDF图数据的查询方法, 其特征在于, 所述时 序RDF图数据被持久化存储在若干文本文件中, 每个文本文件都由五元组形式的数据行组 成, 五元组的前三个元素分别是将主语、 谓语和宾语转化后得到的ID, 五元 组的前三个元素 表示有向图的一条边, 该边由主语对应的顶点指向宾语对应的顶点, 谓语则表 示边的类型; 后两个元 素分别表示该边有效期限的开始时间和截止时间的时间戳。 3.根据权利要求2所述的面向大规模时序RDF图数据的查询方法, 其特征在于, 所述步 骤S1采用: 键是由有向图的顶点ID、 谓语ID以及方向组成的三元组; 值是由顶点ID、 有效期 限开始时间和截止时间的两个时间戳组成的三元组列表; 一个键 ‑值对是由方向为dir、 类 型为pid的边以及顶点vid连接的所有顶点的ID及该相邻关系的有效期限。 4.根据权利要求1所述的面向大规模时序RDF图数据的查询方法, 其特征在于, 所述步 骤S2采用: 客户端线程和工作线程的数量在运行前配置; 且由于工作线程的负载较大, 工作 线程的数量 为客户端线程数量的预设倍数以上。 5.根据权利要求1所述的面向大规模时序RDF图数据的查询方法, 其特征在于, 所述用 户的查询请求采用: 时序扩展的S PARQL查询命令; 所述时序扩展的SPARQL查询命令包括: WHERE关键字前面包含一个时间常量或两个时 间常量, 和/或WHERE 关键字后面的每个查询模式包含两个时间量, 其中, 两个时间量包括常 量和/或变量。 6.根据权利要求1所述的面向大规模时序RDF图数据的查询方法, 其特征在于, 所述步 骤S3采用: 将解析后的查询请求 通过TCP或RDMA网络发送至预设机器的工作线程。 7.根据权利要求1所述的面向大规模时序RDF图数据的查询方法, 其特征在于, 所述查 询任务包括若干个三元组或五元组查询步; 所述步骤S4采用: 每执行一个查询步, 就会更新一次中间结果, 当所有查询步都被执行 完毕时就得到 了最终结果; 当一个查询步是三元组时, 匹配到的边只需要符合WHERE关键字前面的时间常量对有 效期限的限制; 当一个查询步是五元组时, 则需要符合五元组的两个时间量对有效期限的 限制。 8.一种面向大规模时序RDF图数据的查询系统, 其特 征在于, 包括: 模块M1: 采用键 ‑值存储方式将五元组格式的时序RDF图数据均匀地加载和存储到多台 机器的内存中; 模块M2: 在每台机器上创建若干个客户端 线程和若干个工作线程; 模块M3: 客户端线程接收用户的查询请求, 并对用户的查询请求进行解析, 将解析后的权 利 要 求 书 1/2 页 2 CN 114417066 A 2查询请求发送至相应机器的工作线程; 模块M4: 工作线程基于解析后的查询请求执 行查询任务得到最终查询结果; 模块M5: 工作线程将查询结果返回至客户端 线程。 9.根据权利要求8所述的面向大规模时序RDF图数据的查询系统, 其特征在于, 所述时 序RDF图数据被持久化存储在若干文本文件中, 每个文本文件都由五元组形式的数据行组 成, 五元组的前三个元素分别是将主语、 谓语和宾语转化后得到的ID, 五元 组的前三个元素 表示有向图的一条边, 该边由主语对应的顶点指向宾语对应的顶点, 谓语则表 示边的类型; 后两个元 素分别表示该边有效期限的开始时间和截止时间的时间戳; 所述模块M1采用: 键是由有向图的顶点ID、 谓语ID以及方向组成的三元组; 值是由顶点 ID、 有效期限开始时间和截止时间的两个时间戳组成的三元组列 表; 一个键 ‑值对是由方向 为dir、 类型为pid的边以及顶点vid连接的所有顶点的ID及该相邻关系的有效期限。 10.根据权利要求8所述的面向大规模时序RDF图数据的查询系统, 其特征在于, 所述模 块M2采用: 客户端线程和工作线程的数量在运行前配置; 且由于工作线程的负载较大, 工作 线程的数量 为客户端线程数量的预设倍数以上; 所述用户的查询请求采用: 时序扩展的S PARQL查询命令; 所述时序扩展的SPARQL查询命令包括: WHERE关键字前面包含一个时间常量或两个时 间常量, 和/或WHERE 关键字后面的每个查询模式包含两个时间量, 其中, 两个时间量包括常 量和/或变量; 所述模块M3采用: 将解析后的查询请求通过TCP或RDMA网络发送至预设机器的工作线 程; 所述查询任务包括若干个三元组或五元组查询步; 所述模块M4采用: 每执行一个查询步, 就会更新一次中间结果, 当所有查询步都被执行 完毕时就得到 了最终结果; 当一个查询步是三元组时, 匹配到的边只需要符合WHERE关键字前面的时间常量对有 效期限的限制; 当一个查询步是五元组时, 则需要符合五元组的两个时间量对有效期限的 限制。权 利 要 求 书 2/2 页 3 CN 114417066 A 3

.PDF文档 专利 面向大规模时序RDF图数据的查询方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向大规模时序RDF图数据的查询方法及系统 第 1 页 专利 面向大规模时序RDF图数据的查询方法及系统 第 2 页 专利 面向大规模时序RDF图数据的查询方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:03:17上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。