iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111230961.8 (22)申请日 2021.10.2 2 (71)申请人 福建亿榕信息技 术有限公司 地址 350000 福建省福州市 鼓楼区软件大 道89号G区20号楼 申请人 国网信息通信产业 集团有限公司   国网信通亿力科技有限责任公司 (72)发明人 宋立华 庄莉 梁懿 苏江文  王秋琳  (74)专利代理 机构 福州市景弘专利代理事务所 (普通合伙) 35219 代理人 魏小霞 (51)Int.Cl. G06F 16/332(2019.01) G06N 20/00(2019.01) (54)发明名称 一种基于深度学习的自然语言数据查询方 法和存储设备 (57)摘要 本发明涉及人工智能自然语言处理技术领 域, 特别涉及一种基于深度学习的自然语言数据 查询方法和存储设备。 所述一种基于深度学习的 自然语言数据查询方法, 包括步骤: 构建自然语 言问句的关联表格识别模型; 进行数据预处理, 生成目标数据, 所述目标数据包括但不限于: 源 序列文本数据、 目标序列文本数据; 根据预设深 度学习序列文本生成方案结合所述目标数据对 序列生成模型进行训练; 对训练后的序列生成模 型生成的序列文本进行后处理解码, 形成端到端 的Text‑to‑SQL模型。 以上查询方法给出了完整 的实现方式, 可实现从自然语言问句到SQL查询 语句的端到端转换。 权利要求书1页 说明书6页 附图4页 CN 114168720 A 2022.03.11 CN 114168720 A 1.一种基于深度学习的自然语言数据查询方法, 其特 征在于, 包括 步骤: 构建自然语言问句的关联表格识别模型; 进行数据预处理, 生成目标数据, 所述目标数据包括但不限于: 源序列文本数据、 目标 序列文本数据; 根据预设深度学习序列文本生成方案结合所述目标 数据对序列生成模型进行训练; 对训练后的序列生成模型生成的序列文本进行后处理解码, 形成端到端的Text ‑to‑ SQL模型。 2.根据权利要求1所述的一种基于深度 学习的自然语言数据查询方法, 其特征在于, 所 述“构建自然语言问句的关联表格识别模型 ”, 具体还包括步骤: 通过深度学习多标签分类技 术构建自然语言问句的关联表格识别模型。 3.根据权利要求1所述的一种基于深度 学习的自然语言数据查询方法, 其特征在于, 所 述“进行数据预处 理, 生成目标 数据”, 具体还包括步骤: 采用预设编码格式对数据进行 预处理; 所述源序列文本结构通过引入标签表示 不同参数; 所述目标序列文本数据使用中文名称替换目标SQL语句中的英文表名和字段名, 保留 SQL关键词, 而后进行中文分词处 理。 4.根据权利要求1所述的一种基于深度 学习的自然语言数据查询方法, 其特征在于, 所 述“根据预设深度学习 序列文本生成方案结合所述目标数据对序列生成模型进 行训练”, 具 体还包括步骤: 通过广泛验证, 对fairseq训练框架及Mbart ‑large‑50预训练模型进行微调生成序列 生成模型的训练代码; 在每轮训练结束后均执行一 次验证集评估, 将所有轮次中loss最小的模型作为序列生 成模型。 5.根据权利要求1所述的一种基于深度 学习的自然语言数据查询方法, 其特征在于, 所 述“对训练后的序列生 成模型生 成的序列文本进行后处理解码, 形成端到端的Text ‑to‑SQL 模型”, 具体还包括步骤: 保存训练后的序列生成模型权重参数, 对生成的训练文本进行后处理解码, 形成端到 端的Text ‑to‑SQL模型。 6.根据权利要求5所述的一种基于深度 学习的自然语言数据查询方法, 其特征在于, 所 述“对生成的训练文本进行后处 理解码”, 具体还包括步骤: 将SQL查询语句中的中文表格和字段名替换为英文表格和字段名。 7.根据权利要求5所述的一种基于深度 学习的自然语言数据查询方法, 其特征在于, 所 述“所述源序列文本结构通过引入标签表示 不同参数 ”, 具体还包括步骤: 在源序列文本结构中引入三个标签分别表示表格、 字段和自然语言问题, 所述表格和 字段均以中文名称表示, 所述字段包括字段名称和字段类型, 中间用空格隔开。 8.一种存储设备, 其中存储有指令集, 其特征在于, 所述指令集用于执行: 权利要求1至 7任一项所述的一种基于深度学习的自然语言数据查询方法。权 利 要 求 书 1/1 页 2 CN 114168720 A 2一种基于深度学习的 自然语言数据查询方 法和存储设备 技术领域 [0001]本发明涉及人工智能自然语言处理技术领域, 特别涉及 一种基于深度学习的自然 语言数据查询方法和存 储设备。 背景技术 [0002]通过多年的信息化建设, 各业务领域的信息系统经多年运行汇集了海量的运行数 据, 其中大部分有价值的业务数据存储于关系数据库(如Oracle、 Mysql等主流数据库)中, 呈现出规模大、 种类多、 范围广等特点, 对于这类数据的获取和分析通常需要通过机器编程 语言(即数据库查询语句, SQL)与数据库进行交互操作, 给数据分析带来了较高的门槛。 数 据挖掘深度不够、 数据增值变现能力弱等问题也逐渐显 现。 亟需通过人工智能技术手段, 实 现人机交 互方式变革, 提高数据分析挖掘效率, 激活数据价 值, 促进数据价 值变现。 [0003]面向自然语言的数据查询(即Text ‑to‑SQL)旨在将用户输入的自然语言问题转成 可与数据库操作的SQL查询语句, 其实现了通过自然语言完成与数据库的交互及获得数据 库中的信息。 该技术领域属于人工智能中的语言理解方向, 可以帮助非技术用户通过自然 语言与数据库进行交互, 降低数据库使用门槛及提升数据库使用效率, 同时具有很高的实 用价值, 在工业界受到 了广泛关注。 [0004]目前, 常见的分析技 术方案如下: [0005]典型发明专利是 “基于向量化语义规则快速实现NL2SQL的方法和装置 (202011184694.0) ”。 [0006]此类技术方案主要通过人工分析、 识别和维护一系列 “从问句到答案 ”的规则, 用 于实现查询语句生成。 例如, 自然语言问句 “查询张三的总支出 ”, 对应的查询问句是 “select sum(pay)fro m payment where user_name=‘张三’ ”。 要做到此类转换, 需要维护 SQL问句的通用模版, 而后利用字典对照或命名实体提取等方法, 将总支出对于到sum (pay)、 将“张三”识别到where问句的值, 等。 [0007]该方法的优点是易于实现; 缺点是需要人工编写、 维护大量的规则、 模版或字典, 并且泛化能力差——这是 因为规则模版只能用于一个目标数据库, 针对不同的业务领域及 业务系统后几乎需要重新维护所有的模版、 规则和字典。 [0008](2)基于深度学习的查询问句生成。 [0009]深度学习是人工智能技术发展的主流技术路线, 在自然语言的数据查询领域也已 有相应方案, 典型的包括: [0010]发 明 专 利 “一 种 基 于 深 度 学 习 语 义 理 解 的 数 据 查 询 方 法 及 装 置 (202010749055.8) ”提出了一种 完整的基于深度学习语义理解的数据查询方法。 其主要思 路是预设一组自然语言问句及其对应的SQL查询问句, 而后将待预测的自然语言问句与预 设自然语 言问句进 行相似度匹配, 识别出最相似的预设自然语言问句, 从而 得到对应的SQL 查询语句。 该方案的优点是自然语言的相似度识别准确 率较高, 缺点是显著依赖于预设的 问句库规模, 即时相似度匹配准确率高达90%, 只要 预设的问句库规模覆盖度不够, 如只覆说 明 书 1/6 页 3 CN 114168720 A 3

.PDF文档 专利 一种基于深度学习的自然语言数据查询方法和存储设备

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的自然语言数据查询方法和存储设备 第 1 页 专利 一种基于深度学习的自然语言数据查询方法和存储设备 第 2 页 专利 一种基于深度学习的自然语言数据查询方法和存储设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。