(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111657960.1
(22)申请日 2021.12.3 0
(71)申请人 浙江邦盛科技股份有限公司
地址 310012 浙江省杭州市西湖区西斗门
路3号天堂软件园D幢17层ABCD座
(72)发明人 高杨 王新根 黄滔 陈伟
牛诗雅
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
代理人 刘静
(51)Int.Cl.
G06F 16/2458(2019.01)
G06F 16/2455(2019.01)
G06F 16/25(2019.01)
G06F 16/21(2019.01)G06F 9/50(2006.01)
(54)发明名称
一种负载自适应的分布式空间文本流数据
处理系统
(57)摘要
本发明提供了一种负载自适应的分布式空
间文本流数据处理系统, 包括数据输入层, 其配
置为解析和预处理空间文本流数据; 分区路由
层, 其配置为索引和路由空间文本流数据到相关
空间分区; 匹配处理层, 其配置为存储和匹配符
合空间查询的条件的空间文本流数据; 负载均衡
层, 其配置为实时监控各处理单元负载并动态调
整负载; 数据存储层, 其配置为存储过时空间文
本流数据。 本发 明可用于空间文本流数据的分布
式处理等。
权利要求书2页 说明书6页 附图2页
CN 114297263 A
2022.04.08
CN 114297263 A
1.一种负载自适应的分布式空间文本流数据处 理系统, 其特 征在于, 该系统包括:
数据输入层, 用于读取流式空间文本数据对象和空间查询, 并进行解析和预处理后, 得
到包含标识符、 地理位置、 文本数据和产生时间的空间文本数据对 象四元列表以及包含标
识符、 查询范围、 关键 字和查询持续时间的空间查询四元列表;
分区路由层, 根据来自数据输入层的流式空间文本数据对象和空间查询的四元列表进
行空间分区的路由操作;
匹配处理层, 基于分区路由层的空间分区, 在空间查询的持续时间内, 存储 并连续匹配
满足查询空间范围和查询关键 字集合的空间文本数据对象;
负载均衡层, 用于实时监控和收集匹配处理层中匹配处理层的负载信息, 并在负载失
衡时, 调用负载自适应策略, 并对局部空间分区重新划分, 以满足负载均衡;
数据存储层, 用于存 储匹配处 理层中的过时数据。
2.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统, 其特征在
于, 所述数据输入层将空间文本数据对 象的流数据进行解析, 处理成后续容易操作的四元
列表; 所述空间文本数据对象为含有位置信息的文本数据, 将其处理为四元列表Lo=[oid,
loc,text,ts], oid为数据对象标识符, loc为地理位置, text为文本数据, ts为产生时间; 所
述空间查询为包含空间范围和关键字限定的过滤查询, 将其处理为四元列表Lq=[qid,
MBR, text, t], qid为查询标识符,MBR为查询空间范围的矩形边界, text为查询关键字集合,
t为查询持续时间。
3.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统, 其特征在
于, 所述分区路由层对空间文本数据对 象和空间查询进行索引和搜索空间分区; 每一个空
间分区对应连续单元格组成的矩形区域, 空间分区中的每一个单元格均包含该 空间分区的
标识符信息和边界信息; 空间文本数据对象 的loc信息确定唯一的空间分区, 而查询的空间
范围会覆盖多个空间分区。
4.如权利要求3所述的一种负载自适应的分布式空间文本流数据处理系统, 其特征在
于, 空间分区所占据的矩形区域的划分具有顺序, 首先在横向或纵向上进行第一维度的切
分, 形成候选空间分区, 然后再对候选空间分区在另一个维度上进行切分, 以形成空间分
区:
定义两个二元组(xmin,ymin),(xmax,ymax)来表示空间分区的位置, (xmin,ymin)为空
间分区的左下角单元格坐标, (xmax,ymax)为空间分区的右上角单元格坐标。 空间查询在 遍
历所覆盖的空间分区时, 通过<y不变, xmax+1>的方法向右移动, 遍历同一候选空间分区中
的其他空间分区, 然后再将x变为此候选空间分区的第一个主 单元格横坐标, 对y进 行ymin‑
1操作, 向下移动, 到 达其他候选空间分区, 从而 遍历空间查询所覆盖的所有空间分区;
定义一个主单元格, 即空间查询所覆盖的空间分区的左上角单元格。 在进行邻近空间
分区搜索时只访问主单 元格。
5.如权利要求4所述的一种负载自适应的分布式空间文本流数据处理系统, 其特征在
于, 在邻近搜索时, 当向右移动到未被查询空间范围覆盖到的空间分区时, 改变y值进入其
他候选空间分区进行遍历; 当向下移动到未被查询空间范围覆盖到的空间分区, 则 路由操
作结束。
6.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统, 其特征在权 利 要 求 书 1/2 页
2
CN 114297263 A
2于, 所述匹配处理层由多个处理单元 组成, 每一个空间分区对应一个处理单元, 每个处理单
元都维护一个局部 关键字索引; 当空间文本数据对象的地理位置满足空间查询的空间范围
并且空间文本数据对象的文本数据信息包含空间查询的所有关键词时, 为该空间查询匹配
这个空间文本数据对象。
7.如权利要求6所述的一种负载自适应的分布式空间文本流数据处理系统, 其特征在
于, 所述匹配处理层 对流式空间文本数据对象划分时隙, 每隔一定时间更新时隙, 越旧的数
据具有越粗的粒度; 粒度遵循指数函数f(x)=2x, 其中x为数据在匹配处理层中的生存时
间; 定期检查处理单元内数据大小, 若超过预定义阈值, 则将最旧的时隙数据存入数据存储
层。
8.如权利要求6所述的一种负载自适应的分布式空间文本流数据处理系统, 其特征在
于, 所述负载均 衡层实时监控和收集匹配处理层每个处理单元的总 负载信息Wi和维度负载
分布表Wdi, 当处理单元中最大 的负载和处理单元中最小的负载之比Wmax/Wmin>δ时, 基于负
载自适应策略, 转移 最大负载处理单元Pmax中的负载到该处理单元的邻近处理单元上; 其中
维度负载分布 表Wdi统计该处 理单元在第二维度上的负载分布情况。
9.如权利要求8所述的一种负载自适应的分布式空间文本流数据处理系统, 其特征在
于, 当匹配处理层的负载不平衡时, 在同一候选空间分区内重新划分最大负载处理单元附
近的局部空间分区, 过程如下:
(1)根据Pmax的二元组坐标(xmin,ymin),(xmax,ymax)确定与Pmax位于同一候选空间分
区的相邻处 理单元所在的空间分区;
(2)对Pmax和相邻两处理单元进行局部空间重划分操作, 先计算相邻三个空间分区的总
负载, 进而得到每个空间分区的平均负载, 以重划分后三者中的最大负载为Wmax, 若不再满
足Wmax/Wmin>δ 的均衡触发条件, 则进行步骤(3), 否则扩大局部空间重划分的范 围, 加入Pmax
的相邻两处理单元的邻近处理单元后, 判断是否满足均衡触发条件, 若不满足, 进行步骤
(3), 若满足, 再次扩 大局部空间重划分的范围, 以此类推, 直至重划分后的空间分区不满足
均衡触发条件;
(3)重划分时, 按空间顺序从左到右合并n个处理单元的维度负载分布表W di1,Wdi2,…,
Wdin, 对n个处理单元需要进行n ‑1次切分, 重新划分为n个空间分区; 切分过程具体为: 对合
并后的维度负载分布表从左到右进行维度负载的累加, 当第一次累加和大于或等于平均负
载时, 进行第一次切分, 不清零继续累加, 第二次累加和大于或等于两倍的平均负载时, 进
行第二次切分, 以此类 推, 直到进行n ‑1次切分。
10.如权利要求1所述的一种负载自适应的分布式空间文本流数据处理系统, 其特征在
于, 所述数据存储层将过时的数据从匹配处理层的处理单元中的内存释放, 写入持久性存
储器, 与其他外围系统连接, 以供将来的处理分析, 所述外围系统包括RDMS,HDFS,HBase,
Hive。权 利 要 求 书 2/2 页
3
CN 114297263 A
3
专利 一种负载自适应的分布式空间文本流数据处理系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:00:52上传分享