iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111229288.6 (22)申请日 2021.10.21 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 北京邮电大 学新科研楼627室 (72)发明人 欧中洪 田子敬 史明昊 罗中李 宋美娜 钟茂华 梁昊光 (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 代理人 罗岚 (51)Int.Cl. G06V 10/774(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于预训练模型和召回排序的跨模态检索 系统及方法 (57)摘要 本发明提出一种基于预训练模型和召回排 序的跨模态检索系统及方法, 其中, 该系统包括: 多维度文本信息提取模块, 用于为所述跨模态检 索系统提供文本侧的信息支持, 通过不同维度扩 大文本信息的语义表示, 增加文本样本量; 智能 图像检索模块, 用于视频智能抽帧模块和以图搜 图模块, 其中, 视频智 能抽帧模块用于从一段视 频中抽取出最能代表视频内容的若干张图片, 以 图搜图模块用于完成大规模高效率的图片检索 任务; 跨模态检索模块, 用于根据查询项生成大 致相关地候选集, 对所述候选集进行精确排序, 最终返回相关地检索结果。 该系统用于降低信息 管理成本、 提升信息搜索精度和 效率, 支撑大型 赛事咨询和新闻搜索的多 模态自动化信息 检索。 权利要求书2页 说明书9页 附图7页 CN 114419387 A 2022.04.29 CN 114419387 A 1.一种基于预训练模型和召回排序的跨模态检索系统, 其特 征在于, 包括以下模块: 多维度文本信息提取模块, 用于为所述跨模态检索系统提供文本侧的信息支持, 通过 不同维度扩大文本信息的语义表示, 增 加文本样本量; 智能图像检索模块, 包括视频智能抽帧模块和以图搜图模块, 其中, 视频智能抽帧模块 用于从一段视频中抽取出最能代表视频内容的若干张图片, 以图搜图模块用于完成大规模 高效率的图片检索任务; 跨模态检索模块, 用于根据查询项生成大致相关地候选集, 对所述候选集进行精确排 序, 最终返回相关地检索结果。 2.根据权利要求1所述的系统, 其特 征在于, 所述多维度文本信息提取模块, 包括: 语音数据处 理模块, 用于音频提取和基于深度学习的语音识别; 自然语言文本扩展模块, 用于获取不同语序不同语种下对于当前语句地语义描述, 从 多方面对已有地文本数据进行扩展, 还用于根据细粒度地文本分析, 获取大量地负样本数 据。 3.根据权利要求1所述的系统, 其特征在于, 所述视频智能抽帧模块用于从一段视频中 抽取出最能代 表视频内容的若干张图片, 具体包括: 提取视频地每一帧, 得到若干张图片; 将所述图片映射到统一 地LUV颜色空间中, 计算每一帧与前一帧地 绝对距离; 根据所述绝对距离将提取出地所有帧排序, 排行靠前的若干帧即视为最 能代表视频内 容的若干张图片。 4.根据权利要求1所述的系统, 其特征在于, 所述以图搜图模块用于完成大规模高效率 的图片检索任务, 具体包括: 基于平均灰度级比较差距的图片特 征提取技 术对图片进行 特征提取; 通过ElasticSearch提供的模糊查询功能, 快速 的从图片数据库 中检索出相同或相似 的图片。 5.根据权利要求1所述的系统, 其特 征在于, 所述 跨模态检索模块, 包括: 粗略召回模块, 采用基于transformer的多模态预训练模型, 作为向量嵌入模型的子模 型, 进行快速的粗略召回; 精确排序模块, 利用基于transformer的多模态预训练模型, 作为交叉编码器模型的子 模型, 进行精确排序。 6.一种基于预训练模型和召回排序的跨模态检索方法, 其特 征在于, 包括以下步骤: 提取文本信息, 通过不同维度扩大文本信息的语义表示, 增 加文本样本量; 提取图像信息, 从一段视频中抽取出最能代表视频内容的若干张图片, 从数据库中检 索出相同或相似图片; 根据查询项生成大致相关地候选集, 对所述候选集进行精确排序, 最终返回相关地检 索结果。 7.根据权利要求6所述的方法, 其特 征在于, 所述 提取文本信息, 包括: 音频提取和基于深度学习的语音识别; 获取不同语序不同语种下对于当前语句地语义描述, 从多方面对已有地文本数据进行 扩展, 还用于根据细粒度地文本分析, 获取 大量地负样本数据。权 利 要 求 书 1/2 页 2 CN 114419387 A 28.根据权利要求6所述的方法, 其特征在于, 所述从一段视频中抽取出最 能代表视频内 容的若干张图片, 包括: 提取视频地每一帧, 得到若干张图片; 将所述图片映射到统一 地LUV颜色空间中, 计算每一帧与前一帧地 绝对距离; 根据所述绝对距离将提取出地所有帧排序, 排行靠前的若干帧即视为最 能代表视频内 容的若干张图片。 9.根据权利要求6所述的方法, 其特征在于, 所述从数据库中检索出相同或相似图片, 包括: 基于平均灰度级比较差距的图片特 征提取技 术对图片进行 特征提取; 通过ElasticSearch提供的模糊查询功能, 快速 的从图片数据库 中检索出相同或相似 的图片。 10.根据权利要求6所述的方法, 所述根据查询项生成大致相关地候选集, 对所述候选 集进行精确排序, 包括: 采用基于transformer的多模态预训练模型, 作为向量嵌入模型的子模型, 进行快速的 粗略召回; 利用基于transformer的多模态预训练模型, 作为交叉编码器模型的子模型, 进行精确 排序。权 利 要 求 书 2/2 页 3 CN 114419387 A 3
专利 基于预训练模型和召回排序的跨模态检索系统及方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-19 02:02:08
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GB-T 20282-2006 信息安全技术 信息系统安全工程管理要求.pdf
GB-T 41619-2022 科学技术研究项目评价实施指南 基础研究项目.pdf
DB12-T 455-2012 贵金属及珠宝玉石饰品经营服务规范 天津市.pdf
山东省健康医疗大数据管理办法.pdf
GB-T 37955-2019 信息安全技术 数控网络安全技术要求.pdf
T-CFA 0201031—2018 金属切削机床球墨铸铁件 技术条件.pdf
GM-T 0100-2020 人工确权型数字签名密码应用技术要求.pdf
DB32-T 4659.2-2024 医院公共卫生工作规范 第2部分:疾控机构医防融合工作指南 江苏省.pdf
GB-T 30278-2013 信息安全技术 政务计算机终端核心配置规范.pdf
高耗能特种设备节能监督管理办法.pdf
GB-T 4084-2018 自应力混凝土管.pdf
炼石图解-网络数据安全风险评估实施指引V1.0.pdf
T-ZZB 0659—2018 马丁代尔耐磨及起毛起球性能试验仪.pdf
GB-T 4937.42-2023 半导体器件 机械和气候试验方法 第42部分:温湿度贮存.pdf
LY-T 1738-2020 实木复合地板用胶合板.pdf
GB-T 6312-2022 壁厚千分尺.pdf
GB-T 40595-2021 并网电源一次调频技术规定及试验导则.pdf
GB-T 40659-2021 智能制造 机器视觉在线检测系统 通用要求.pdf
OWASP Webgoat 中文手册 V2.2.pdf
GB-T 42381.8-2023 数据质量 第8部分:信息和数据质量:概念和测量.pdf
1
/
3
19
评价文档
赞助3元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。