专利 基于预训练模型和召回排序的跨模态检索系统及方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111229288.6 (22)申请日 2021.10.21 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号北京邮电大学新科研楼627室 (72)发明人欧中洪　田子敬　史明昊　罗中李　宋美娜　钟茂华　梁昊光　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 代理人罗岚 (51)Int.Cl. G06V 10/774(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称基于预训练模型和召回排序的跨模态检索系统及方法 (57)摘要本发明提出一种基于预训练模型和召回排序的跨模态检索系统及方法，其中，该系统包括：多维度文本信息提取模块，用于为所述跨模态检索系统提供文本侧的信息支持，通过不同维度扩大文本信息的语义表示，增加文本样本量；智能图像检索模块，用于视频智能抽帧模块和以图搜图模块，其中，视频智能抽帧模块用于从一段视频中抽取出最能代表视频内容的若干张图片，以图搜图模块用于完成大规模高效率的图片检索任务；跨模态检索模块，用于根据查询项生成大致相关地候选集，对所述候选集进行精确排序，最终返回相关地检索结果。该系统用于降低信息管理成本、提升信息搜索精度和效率，支撑大型赛事咨询和新闻搜索的多模态自动化信息检索。权利要求书2页说明书9页附图7页 CN 114419387 A 2022.04.29 CN 114419387 A 1.一种基于预训练模型和召回排序的跨模态检索系统，其特征在于，包括以下模块：多维度文本信息提取模块，用于为所述跨模态检索系统提供文本侧的信息支持，通过不同维度扩大文本信息的语义表示，增加文本样本量；智能图像检索模块，包括视频智能抽帧模块和以图搜图模块，其中，视频智能抽帧模块用于从一段视频中抽取出最能代表视频内容的若干张图片，以图搜图模块用于完成大规模高效率的图片检索任务；跨模态检索模块，用于根据查询项生成大致相关地候选集，对所述候选集进行精确排序，最终返回相关地检索结果。 2.根据权利要求1所述的系统，其特征在于，所述多维度文本信息提取模块，包括：语音数据处理模块，用于音频提取和基于深度学习的语音识别；自然语言文本扩展模块，用于获取不同语序不同语种下对于当前语句地语义描述，从多方面对已有地文本数据进行扩展，还用于根据细粒度地文本分析，获取大量地负样本数据。 3.根据权利要求1所述的系统，其特征在于，所述视频智能抽帧模块用于从一段视频中抽取出最能代表视频内容的若干张图片，具体包括：提取视频地每一帧，得到若干张图片；将所述图片映射到统一地LUV颜色空间中，计算每一帧与前一帧地绝对距离；根据所述绝对距离将提取出地所有帧排序，排行靠前的若干帧即视为最能代表视频内容的若干张图片。 4.根据权利要求1所述的系统，其特征在于，所述以图搜图模块用于完成大规模高效率的图片检索任务，具体包括：基于平均灰度级比较差距的图片特征提取技术对图片进行特征提取；通过ElasticSearch提供的模糊查询功能，快速的从图片数据库中检索出相同或相似的图片。 5.根据权利要求1所述的系统，其特征在于，所述跨模态检索模块，包括：粗略召回模块，采用基于transformer的多模态预训练模型，作为向量嵌入模型的子模型，进行快速的粗略召回；精确排序模块，利用基于transformer的多模态预训练模型，作为交叉编码器模型的子模型，进行精确排序。 6.一种基于预训练模型和召回排序的跨模态检索方法，其特征在于，包括以下步骤：提取文本信息，通过不同维度扩大文本信息的语义表示，增加文本样本量；提取图像信息，从一段视频中抽取出最能代表视频内容的若干张图片，从数据库中检索出相同或相似图片；根据查询项生成大致相关地候选集，对所述候选集进行精确排序，最终返回相关地检索结果。 7.根据权利要求6所述的方法，其特征在于，所述提取文本信息，包括：音频提取和基于深度学习的语音识别；获取不同语序不同语种下对于当前语句地语义描述，从多方面对已有地文本数据进行扩展，还用于根据细粒度地文本分析，获取大量地负样本数据。权　利　要　求　书 1/2 页 2 CN 114419387 A 28.根据权利要求6所述的方法，其特征在于，所述从一段视频中抽取出最能代表视频内容的若干张图片，包括：提取视频地每一帧，得到若干张图片；将所述图片映射到统一地LUV颜色空间中，计算每一帧与前一帧地绝对距离；根据所述绝对距离将提取出地所有帧排序，排行靠前的若干帧即视为最能代表视频内容的若干张图片。 9.根据权利要求6所述的方法，其特征在于，所述从数据库中检索出相同或相似图片，包括：基于平均灰度级比较差距的图片特征提取技术对图片进行特征提取；通过ElasticSearch提供的模糊查询功能，快速的从图片数据库中检索出相同或相似的图片。 10.根据权利要求6所述的方法，所述根据查询项生成大致相关地候选集，对所述候选集进行精确排序，包括：采用基于transformer的多模态预训练模型，作为向量嵌入模型的子模型，进行快速的粗略召回；利用基于transformer的多模态预训练模型，作为交叉编码器模型的子模型，进行精确排序。权　利　要　求　书 2/2 页 3 CN 114419387 A 3

专利 基于预训练模型和召回排序的跨模态检索系统及方法

专利基于预训练模型和召回排序的跨模态检索系统及方法