(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111186741.X
(22)申请日 2021.10.12
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 丁勇 朱子奇 徐晓舒 汤峻
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
代理人 郑海峰
(51)Int.Cl.
G06F 16/73(2019.01)
G06F 16/783(2019.01)
G06V 20/40(2022.01)
G06V 10/70(2022.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于多模态与自监督表征学习的视频
检索方法
(57)摘要
本发明公开了一种基于多模态与自监督表
征学习的视频检索方法, 应用于视频检索领域。
给定一个搜索视频, 可以在千万级视频库中找到
画面相似或事件相似的视频。 该技术可以为短视
频平台的新闻事件聚合、 版权保护侵权检索、 多
模态检索等问题的解决方案。 本发 明主要包括如
下步骤: 1.通过无标注图片数据和图片 ‑文本对
数据构建监督数据集, 利用监督数据集训练图片
特征提取网络。 2.通过对视频帧进行特征提取并
计算领域密度的方法构建特征频次库。 3.提取视
频表征并构建视频库, 利用近邻检索的方法进行
视频检索。 基于本发明所提出方法的基于多模态
与自监督表征学习的视频检索方法在测试数据
集中具有较高的准确率和召回率, 具有良好的鲁
棒性。
权利要求书2页 说明书5页 附图3页
CN 113946710 A
2022.01.18
CN 113946710 A
1.基于多模态与自监 督表征学习的视频检索方法, 其特 征在于, 包括以下步骤:
步骤1: 收集图像及对应的文本信息, 所述的文本信息包括图像对应的标题、 标签或文
本描述; 所述的图像及对应的文本信息构成图像 ‑文本对;
步骤2: 利用步骤1中得到的图像构建自监 督正样本集 合;
步骤3: 利用步骤1中得到的图像 ‑文本对和步骤2中得到的自监督正样本集合同步训练
图片特征提取网络和文本特征提取网络; 其中图像 ‑文本对用于监督图片特征提取网络和
文本特征提取网络, 构建双 网络对比学习损失函数; 自监督正样本集合用于监督图片特征
提取网络, 构建单网络对比学习损失函数;
步骤4: 收集视频并抽取关健帧, 每一帧通过步骤3训练好的图片特征提取网络提取图
片特征向量, 构成所有关键帧图像的特征空间; 在所有关键帧图像的特征空间中遍历每一
个帧图像, 在邻域内做近邻检索, 统计邻域内的帧图像数量作为频次, 对频次高于阈值的图
片特征向量进行稀疏化注 册到特征频次库中;
步骤5: 分别计算被搜索的视频库中的每一个视频、 以及待搜索视频的视频级特征向
量:
针对每一个视频, 均匀抽帧后通过步骤3训练好的图片特征提取网络提取每一帧图像
的图像特征向量, 每一帧图像的图像特征向量都在步骤4的特征频次库中进行top1阈值检
索, 检索到的频次计为图像特征向量的频次; 对所有帧的图像特征向量及其频次倒数进行
加权求均值, 作为视频级特 征向量;
步骤6: 利用被搜索的视频库中每一个视频的视频级特征向量构建近邻搜索图, 对待搜
索视频的视频级特 征向量在近邻搜索图中进行搜索, 得到检索结果。
2.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法, 其特征在于, 所
述的图片特 征提取网络采用BERT网络结构。
3.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法, 其特征在于, 所
述步骤3中的训练方法为:
(1)每一个大小为N的batch, 输入原始图像{xk}, k=1,2, …,N, 图像对应的文本信息记
为{tk};
(2)数据增强: ak=augment(xk), augment为仿射变换、 随机裁剪、 网格失真、 随机旋转、
高斯模糊的随机组合; 得到数据增强后的图像{ak}, k=1,2,…,N;
(3)将图片特 征提取网络记为f(.), 文本特 征提取网络记为h(.), 对k =1,2,…,N有:
zk=f(xk),ek=h(tk),uk=f(ak)
其中, zk为原始图像的图片特征, uk为数据增强后的图像的图片特征, ek为文本信息的
文本特征;
(4)计算相似度矩阵:
其中,
表示第i个原始图像的图片特征与第j个文本信息的文本特征之间的相似度矩
阵,
表示第i个原始图像的图片特征与第j个数据增强后的图像的图片特征之间的相似度权 利 要 求 书 1/2 页
2
CN 113946710 A
2矩阵, 上角标T表示 转置, |.|表示取向量的模长;
(5)计算总损失值 loss:
loss=α×losst+β×lossa
其中, losst表示双网络对比学习损失函数, lossa表示单网络对比学习损失函数, N每一
次训练的图像数量, 即batch大小; τ表 示放大系数; exp(.)表 示指数运算; α、 β 分别为两个损
失函数的权 重;
(6)根据计算得到的总损失值loss, 通过梯度下降法同步更新 图片特征提取网络和文
本特征提取网络 。
4.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法, 其特征在于, 所
述步骤4中的近邻检索统计频次的方法为:
统计关键帧的图片特 征向量zi在邻域中的向量 集合
其中, D表示包含n个关键帧的图片特征向量的集合, θ
表示阈值; Nθ(xi)集合中包含的元素数量为图片特 征向量的频次Fi。
5.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法, 其特征在于, 所
述步骤5中的视频向量计算方法为:
每一帧图像特 征向量zi在步骤4的特 征频次库中进行top1检索, 即找到 zr满足:
提取zr的频次Fr, 则zi的权重更新为:
视频级特 征向量计算 为:
其中, Norm(.)表示向量的归一 化, n′表示视频均匀抽帧的数量。
6.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法, 其特征在于, 所
述步骤6中的近邻搜索图构建和检索采用HNSW检索方法。
7.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法, 其特征在于, 步
骤2构建自监督正样本集合的过程为: 以每一幅图像作为基准图像进行随机参数 的图像空
间变换, 包括仿射变换、 随机裁剪、 网格失真、 随机旋转、 高斯模糊中的一种或多种方式组
合, 生成变换后的图像作为基准图像的自监 督正样本集 合。权 利 要 求 书 2/2 页
3
CN 113946710 A
3
专利 一种基于多模态与自监督表征学习的视频检索方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:59:24上传分享