iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111229288.6 (22)申请日 2021.10.21 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 北京邮电大 学新科研楼627室 (72)发明人 欧中洪 田子敬 史明昊 罗中李  宋美娜 钟茂华 梁昊光  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 代理人 罗岚 (51)Int.Cl. G06V 10/774(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于预训练模型和召回排序的跨模态检索 系统及方法 (57)摘要 本发明提出一种基于预训练模型和召回排 序的跨模态检索系统及方法, 其中, 该系统包括: 多维度文本信息提取模块, 用于为所述跨模态检 索系统提供文本侧的信息支持, 通过不同维度扩 大文本信息的语义表示, 增加文本样本量; 智能 图像检索模块, 用于视频智能抽帧模块和以图搜 图模块, 其中, 视频智 能抽帧模块用于从一段视 频中抽取出最能代表视频内容的若干张图片, 以 图搜图模块用于完成大规模高效率的图片检索 任务; 跨模态检索模块, 用于根据查询项生成大 致相关地候选集, 对所述候选集进行精确排序, 最终返回相关地检索结果。 该系统用于降低信息 管理成本、 提升信息搜索精度和 效率, 支撑大型 赛事咨询和新闻搜索的多 模态自动化信息 检索。 权利要求书2页 说明书9页 附图7页 CN 114419387 A 2022.04.29 CN 114419387 A 1.一种基于预训练模型和召回排序的跨模态检索系统, 其特 征在于, 包括以下模块: 多维度文本信息提取模块, 用于为所述跨模态检索系统提供文本侧的信息支持, 通过 不同维度扩大文本信息的语义表示, 增 加文本样本量; 智能图像检索模块, 包括视频智能抽帧模块和以图搜图模块, 其中, 视频智能抽帧模块 用于从一段视频中抽取出最能代表视频内容的若干张图片, 以图搜图模块用于完成大规模 高效率的图片检索任务; 跨模态检索模块, 用于根据查询项生成大致相关地候选集, 对所述候选集进行精确排 序, 最终返回相关地检索结果。 2.根据权利要求1所述的系统, 其特 征在于, 所述多维度文本信息提取模块, 包括: 语音数据处 理模块, 用于音频提取和基于深度学习的语音识别; 自然语言文本扩展模块, 用于获取不同语序不同语种下对于当前语句地语义描述, 从 多方面对已有地文本数据进行扩展, 还用于根据细粒度地文本分析, 获取大量地负样本数 据。 3.根据权利要求1所述的系统, 其特征在于, 所述视频智能抽帧模块用于从一段视频中 抽取出最能代 表视频内容的若干张图片, 具体包括: 提取视频地每一帧, 得到若干张图片; 将所述图片映射到统一 地LUV颜色空间中, 计算每一帧与前一帧地 绝对距离; 根据所述绝对距离将提取出地所有帧排序, 排行靠前的若干帧即视为最 能代表视频内 容的若干张图片。 4.根据权利要求1所述的系统, 其特征在于, 所述以图搜图模块用于完成大规模高效率 的图片检索任务, 具体包括: 基于平均灰度级比较差距的图片特 征提取技 术对图片进行 特征提取; 通过ElasticSearch提供的模糊查询功能, 快速 的从图片数据库 中检索出相同或相似 的图片。 5.根据权利要求1所述的系统, 其特 征在于, 所述 跨模态检索模块, 包括: 粗略召回模块, 采用基于transformer的多模态预训练模型, 作为向量嵌入模型的子模 型, 进行快速的粗略召回; 精确排序模块, 利用基于transformer的多模态预训练模型, 作为交叉编码器模型的子 模型, 进行精确排序。 6.一种基于预训练模型和召回排序的跨模态检索方法, 其特 征在于, 包括以下步骤: 提取文本信息, 通过不同维度扩大文本信息的语义表示, 增 加文本样本量; 提取图像信息, 从一段视频中抽取出最能代表视频内容的若干张图片, 从数据库中检 索出相同或相似图片; 根据查询项生成大致相关地候选集, 对所述候选集进行精确排序, 最终返回相关地检 索结果。 7.根据权利要求6所述的方法, 其特 征在于, 所述 提取文本信息, 包括: 音频提取和基于深度学习的语音识别; 获取不同语序不同语种下对于当前语句地语义描述, 从多方面对已有地文本数据进行 扩展, 还用于根据细粒度地文本分析, 获取 大量地负样本数据。权 利 要 求 书 1/2 页 2 CN 114419387 A 28.根据权利要求6所述的方法, 其特征在于, 所述从一段视频中抽取出最 能代表视频内 容的若干张图片, 包括: 提取视频地每一帧, 得到若干张图片; 将所述图片映射到统一 地LUV颜色空间中, 计算每一帧与前一帧地 绝对距离; 根据所述绝对距离将提取出地所有帧排序, 排行靠前的若干帧即视为最 能代表视频内 容的若干张图片。 9.根据权利要求6所述的方法, 其特征在于, 所述从数据库中检索出相同或相似图片, 包括: 基于平均灰度级比较差距的图片特 征提取技 术对图片进行 特征提取; 通过ElasticSearch提供的模糊查询功能, 快速 的从图片数据库 中检索出相同或相似 的图片。 10.根据权利要求6所述的方法, 所述根据查询项生成大致相关地候选集, 对所述候选 集进行精确排序, 包括: 采用基于transformer的多模态预训练模型, 作为向量嵌入模型的子模型, 进行快速的 粗略召回; 利用基于transformer的多模态预训练模型, 作为交叉编码器模型的子模型, 进行精确 排序。权 利 要 求 书 2/2 页 3 CN 114419387 A 3

.PDF文档 专利 基于预训练模型和召回排序的跨模态检索系统及方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于预训练模型和召回排序的跨模态检索系统及方法 第 1 页 专利 基于预训练模型和召回排序的跨模态检索系统及方法 第 2 页 专利 基于预训练模型和召回排序的跨模态检索系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 02:02:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。