(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111189823.X
(22)申请日 2021.10.13
(65)同一申请的已公布的文献号
申请公布号 CN 113642532 A
(43)申请公布日 2021.11.12
(73)专利权人 广州虎牙信息科技有限公司
地址 510000 广东省广州市番禺区钟村街
(汉溪商业中心) 泽溪街13号1401
(72)发明人 梁翠晓 张枫
(74)专利代理 机构 成都极刻智慧知识产权代理
事务所(普通 合伙) 51310
代理人 陈万艺
(51)Int.Cl.
G06V 20/40(2022.01)
G06N 20/00(2019.01)(56)对比文件
CN 112446331 A,2021.0 3.05
CN 112949433 A,2021.0 6.11
CN 112001278 A,2020.1 1.27
Jinguo Zhu et al. .Complementary
Relation Contrastive Disti llation. 《2021
IEEE/CVF Conference o n Computer Visi on
and Pattern Recogn ition》 .2021,第9 260-9269
页.
审查员 曹春晓
(54)发明名称
视频分类模 型处理方法、 装置及数据处理设
备
(57)摘要
本申请提供一种视频分类模 型处理方法、 装
置及数据处理设备, 采用知识蒸馏的方式结合已
训练的教师模 型对学生模型进行训练, 在训练过
程中分析教师模型提取的类别特征的各项数据
之间的关联性, 得到类别关联性特征, 并通过知
识蒸馏的训练方式将类别关联性特征迁移至学
生模型, 使得学生模型在提取特征的过程中关注
类别间的关系, 从而能够提取鲁棒性更强的特
征, 进而使结构相对简单的学生模 型在保持高性
能的情况 下具有更高的分类精度。
权利要求书3页 说明书11页 附图6页
CN 113642532 B
2022.02.08
CN 113642532 B
1.一种视频分类模型处 理方法, 其特 征在于, 所述方法包括:
将样本视频帧输入训练好的教师模型进行处理, 获取所述教师模型输出的第 一类别特
征及第一类别关联性特征, 并根据所述第一类别特征及第一类别关联性特征确定第一组合
特征; 所述第一类别特征包括所述样本视频帧在多个预设分类上 的特征数据; 所述第一类
别关联性特 征表征所述第一类别特 征中不同预设 分类的特 征数据之间的关联性;
将所述样本视频帧输入训练好的学生模型进行处理, 获取所述学生模型输出的预测分
类结果;
通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特
征进行知识蒸馏处 理, 获得蒸馏损失值;
根据所述预测分类结果及所述样本 视频帧的视频帧分类标签确定分类损失值;
根据所述蒸馏损失值和所述分类损失值对所述学生模型的模型参数进行调整;
其中, 所述教师模型包括第一特 征提取单元及第一类别关系感知单 元;
所述将样本视频帧输入训练好的教师模型进行处理, 获取所述教师模型输出的第 一类
别特征及第一类别关联性特 征的步骤, 包括:
将所述样本 视频帧输入所述第一特 征提取单元, 获得所述第一类别特 征;
将所述第一类别特征输入所述第 一类别关系感知单元, 通过所述第 一类别关系感知单
元提取所述第一类别特征中各项 特征数据之间的关联性特征, 获得所述第一类别关联性特
征。
2.根据权利要求1所述的方法, 其特征在于, 所述第一组合特征包括第一拼接特征; 所
述第一特 征提取单元包括多个第一特 征提取层 及第一全连接层;
所述将所述样本视频帧输入所述第一特征提取单元, 获得所述第一类别特征的步骤,
包括:
将所述样本视频帧输入所述第 一特征提取单元, 通过所述多个第 一特征提取层对所述
样本视频帧进 行特征提取, 通过所述第一全连接层 对所述多个第一特征提取层输出的数据
进行处理获得所述第一类别特 征;
所述根据所述第一类别特 征及第一类别关联性特 征确定第一组合特 征的步骤, 包括:
对所述第一类别特 征及所述第一类别关联性特 征进行拼接, 获得 所述第一 拼接特征。
3.根据权利要求2所述的方法, 其特征在于, 所述学生模型包括第二特征提取单元, 所
述第二特征提取单元包括多个第二特征提取层及第二全连接层, 所述知识蒸馏模型包括分
别与所述多个第二特征提取层 对应的多个第一知识蒸馏单元; 所述蒸馏损失值包括第一蒸
馏损失值;
所述通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取
的特征进行知识蒸馏处 理, 获得蒸馏损失值的步骤, 包括:
针对每个所述第一知识蒸馏单元, 根据多个所述第一特征提取层输出的特征数据、 所
述第一拼接特征以及与该第一知识蒸馏单元对应的第二特征提取层输出的特征数据进行
知识蒸馏计算, 获得第一蒸馏损失值。
4.根据权利要求3所述的方法, 其特征在于, 所述第一组合特征还包括第一融合特征;
所述知识蒸馏模型还包括第二知识蒸馏单元; 所述蒸馏损失值还包括第二蒸馏损失值; 所
述教师模型还 包括第三全连接层;权 利 要 求 书 1/3 页
2
CN 113642532 B
2所述根据所述第一类别特征及第一类别关联性特征确定第一组合特征的步骤, 还包
括:
通过所述第三全连接层对所述第一 拼接特征进行处 理, 获得第一融合特 征;
所述方法还 包括:
获取所述学生模型对所述样本视频帧进行处理所输出的第二类别特征及第二类别关
联性特征, 并根据所述第二类别特征及第二类别关联性特征确定第二融合特征; 所述第二
类别特征包括所述样本视频帧在多个预设分类上的特征数据; 所述第二类别关联性特征表
征所述第二类别特 征中不同预设 分类的特 征数据之间的关联性;
所述通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取
的特征进行知识蒸馏处 理, 获得蒸馏损失值的步骤, 还 包括:
通过所述第二知识蒸馏单元根据所述第一融合特征和所述第二融合特征进行知识蒸
馏处理, 获得第二蒸馏损失值。
5.根据权利要求4所述的方法, 其特征在于, 所述学生模型还包括第 二类别关系感知单
元及第四全连接层;
所述获取所述学生模型对所述样本视频帧进行处理所输出的第二类别特征及第二类
别关联性特征, 并根据所述第二类别特征及第二类别关联性特征确定第二融合特征的步
骤, 包括:
将所述样本视频帧输入所述第 二特征提取单元, 通过所述多个第 二特征提取层对所述
样本视频帧进 行特征提取, 通过所述第二全连接层 对所述多个第二特征提取层输出的数据
进行处理获得所述第二类别特 征;
将所述第二类别特征输入所述第 二类别关系感知单元, 通过所述第 二类别关系感知单
元提取所述第二类别特征中各项 特征数据之间的关联性特征, 获得所述第二类别关联性特
征;
对所述第二类别特 征及所述第二类别关联性特 征进行拼接, 获得第二 拼接特征;
通过所述第四全连接层对所述第二 拼接特征进行处 理, 获得第二融合特 征。
6.根据权利要求2所述的方法, 其特征在于, 所述将所述第 一类别特征输入所述第 一类
别关系感知单元, 通过所述第一类别关系感知单元提取所述第一类别特征中各项 特征数据
之间的关联性特 征, 获得所述第一类别关联性特 征的步骤, 包括:
通过所述第一类别关系感知单元中共享权重的第一卷积单元对所述第一类别特征进
行处理, 获得第一K矩阵、 第一 Q矩阵及第一V 矩阵;
将所述第一K矩阵与转置后的第一 Q矩阵相乘, 获得第一关系矩阵;
对所述第 一关系矩阵进行逻辑 回归处理, 并与所述第 一V矩阵相乘, 获得所述第 一类别
关联性特 征。
7.根据权利要求5所述的方法, 其特征在于, 所述将所述第 二类别特征输入所述第 二类
别关系感知单元, 通过所述第二类别关系感知单元提取所述第二类别特征中各项 特征数据
之间的关联性特 征, 获得所述第二类别关联性特 征的步骤, 包括:
通过所述第二类别关系感知单元中共享权重的第二卷积单元对所述第二类别特征进
行处理, 获得第二K矩阵、 第二 Q矩阵及第二V 矩阵;
将所述第二K矩阵与转置后的第二 Q矩阵相乘, 获得第二关系矩阵;权 利 要 求 书 2/3 页
3
CN 113642532 B
3
专利 视频分类模型处理方法、装置及数据处理设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:03:03上传分享