iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111173960.4 (22)申请日 2021.10.08 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 章玥 方舟 史亚冰 蒋烨  柴春光  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 代理人 刘丽丽 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06N 20/00(2019.01) (54)发明名称 表格信息的提取方法、 装置、 电子设备及存 储介质 (57)摘要 本公开提供了一种表格信息的提取方法、 装 置、 电子设备及存储介质, 涉及人工智 能和大数 据领域, 尤其涉及机器学习、 知识图谱、 智能搜索 和智能推荐领域, 可以用于智能提取表格中的信 息等场景。 具体实现方案为: 基于表格中多行单 元格和/或多列单元格的特征进行聚类, 以确定 表格中的候选表头单元格; 以及基于候选表头单 元格, 对表格进行信息提取, 以提取表格中的属 性与属性 值对。 权利要求书3页 说明书14页 附图4页 CN 113901214 A 2022.01.07 CN 113901214 A 1.一种表格信息的提取 方法, 包括: 基于表格中多行单元格和/或多列单元格的特征进行聚类, 以确定所述表格中的候选 表头单元格; 以及 基于所述候选表头单元格, 对所述表格进行信息提取, 以提取所述表格中的属性与属 性值对。 2.根据权利要求1所述的方法, 其中: 所述基于表格中多行单元格和/或多列单元格的特征进行聚类, 以确定所述表格中的 候选表头单元格, 包括: 针对表格的M行单元格中的每行单元格, 基于行内各单元格的行特 征进行聚类, 以确定对应的候选列表头单 元格; 针对所述表格的N列单元格 中的每列单元格, 基于列内各单元格的列特征进行聚类, 以 确定对应的候选行表头单 元格。 3.根据权利要求2所述的方法, 其中, 所述基于所述候选表头单元格, 对所述表格进行 信息提取, 包括: 在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格为行表头表格 的情况下, 执行第一操作, 其中, 所述第 一操作包括: 遍历所述表格中的非表头区域内的各单元格, 并基于由所述 候选行表头单元格确定的行表头对应的各属性, 以提取所述表格中对应的属性与属性值 对。 4.根据权利要求2或3所述的方法, 所述基于所述候选表头单元格, 对所述表格进行信 息提取, 包括: 在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格为列表头表格 的情况下, 执行第二操作, 其中, 所述第 二操作包括: 遍历所述表格中的非表头区域内的各单元格, 并基于由所述 候选列表头单元格确定的列表头对应的各属性, 以提取所述表格中对应的属性与属性值 对。 5.根据权利要求2至4中任一项所述的方法, 还包括, 在基于所述候选列表头单元格和 所述候选行表头单元格确定所述表格同时包括行表头和列表头的情况下, 执行以下操作中 的至少之一: 响应于确定所述表格中的各列的内容相似, 执 行所述第一操作; 响应于确定所述表格中的各 行的内容相似, 执 行所述第二操作; 响应于确定所述表格中各行的内容的相似度与 各列的内容的相似度一致, 不对所述表 格进行信息提取。 6.根据权利要求5所述的方法, 其中, 通过以下操作确定表格中各行的内容的相似度与 各列的内容的相似度: 确定所述表格的行内平均距离; 确定所述表格的列内平均距离; 以及 比较所述行内平均距离和所述列内平均距离, 以确定所述表格中各行内容的相似度和 各列内容的相似度。 7.根据权利要求2所述的方法, 其中, 所述基于行内各单元格的行特征进行聚类, 以确权 利 要 求 书 1/3 页 2 CN 113901214 A 2定对应的候选列表头单 元格, 包括: 针对所述每行 单元格, 基于所述行内各 单元格的行 特征进行聚类, 得到 两个簇; 以及 将所述两个簇中元素数量较少的一个簇对应的至少一个单元格作为本行的候选列表 头单元格。 8.根据权利要求2所述的方法, 其中, 所述基于行内各单元格的行特征进行聚类, 以确 定对应的候选列表头单 元格, 包括: 针对所述每行 单元格, 基于所述行内各 单元格的行 特征进行聚类, 得到 两个簇; 以及 将所述两个簇中元素没有命中黑名单且元素数量较少的一个簇对应的单元格作为本 行的候选列表头单 元格, 其中, 所述 黑名单中记录有特定单 元格特征。 9.根据权利要求1所述的方法, 其中, 所述特 征包括: 数据特 征和/或统计特 征。 10.根据权利要求9所述的方法, 其中, 所述统计特征包括以下至少之一: 分词统计特 征、 词性统计特 征、 字符统计特 征、 词频统计特 征。 11.根据权利要求1所述的方法, 其中, 所述表格为以二维矩阵形式组织的表格。 12.根据权利要求1所述的方法, 还包括: 在基于表格中多行单元格和/或多列 单元格的 特征进行聚类之前, 针对所述多行 单元格和/或所述多列单 元格, 先将各单元格中的数字替换为统一的数字, 再提取 所述各单元格的行 特征。 13.一种表格信息的提取装置, 包括: 聚类模块, 用于基于表格 中多行单元格和/或多列 单元格的特征进行聚类, 以确定所述 表格中的候选表头单 元格; 以及 信息提取模块, 用于基于所述候选表头单元格, 对所述表格进行信 息提取, 以提取所述 表格中的属性与属性 值对。 14.根据权利要求13所述的装置, 其中, 所述聚类模块包括: 第一聚类单元, 用于针对表格的M行单元格 中的每行单元格, 基于行内各单元格的行特 征进行聚类, 以确定对应的候选列表头单 元格; 第二聚类单元, 用于针对所述表格的N列单元格 中的每列单元格, 基于列内各单元格的 列特征进行聚类, 以确定对应的候选行表头单 元格。 15.根据权利要求14所述的装置, 其中, 所述信息提取模块还用于: 在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格为行表头表格 的情况下, 执行第一操作, 其中, 所述第 一操作包括: 遍历所述表格中的非表头区域内的各单元格, 并基于由所述 候选行表头单元格确定的行表头对应的各属性, 以提取所述表格中对应的属性与属性值 对。 16.根据权利要求14或15所述的装置, 其中, 所述信息提取模块还用于: 在基于所述候选列表头单元格和所述候选行表头单元格确定所述表格为列表头表格 的情况下, 执行第二操作, 其中, 所述第 二操作包括: 遍历所述表格中的非表头区域内的各单元格, 并基于由所述 候选列表头单元格确定的列表头对应的各属性, 以提取所述表格中对应的属性与属性值 对。 17.根据权利要求14至16中任一项所述的装置, 其中, 所述信 息提取模块还用于在基于权 利 要 求 书 2/3 页 3 CN 113901214 A 3

.PDF文档 专利 表格信息的提取方法、装置、电子设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 表格信息的提取方法、装置、电子设备及存储介质 第 1 页 专利 表格信息的提取方法、装置、电子设备及存储介质 第 2 页 专利 表格信息的提取方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:03:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。