专利 视频分类模型处理方法、装置及数据处理设备

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111189823.X (22)申请日 2021.10.13 (65)同一申请的已公布的文献号申请公布号 CN 113642532 A (43)申请公布日 2021.11.12 (73)专利权人广州虎牙信息科技有限公司地址 510000 广东省广州市番禺区钟村街（汉溪商业中心）泽溪街13号1401 (72)发明人梁翠晓　张枫　 (74)专利代理机构成都极刻智慧知识产权代理事务所(普通合伙) 51310 代理人陈万艺 (51)Int.Cl. G06V 20/40(2022.01) G06N 20/00(2019.01)(56)对比文件 CN 112446331 A,2021.0 3.05 CN 112949433 A,2021.0 6.11 CN 112001278 A,2020.1 1.27 Jinguo Zhu et al. .Complementary Relation Contrastive Disti llation. 《2021 IEEE/CVF Conference o n Computer Visi on and Pattern Recogn ition》 .2021,第9 260-9269 页. 审查员曹春晓 (54)发明名称视频分类模型处理方法、装置及数据处理设备 (57)摘要本申请提供一种视频分类模型处理方法、装置及数据处理设备，采用知识蒸馏的方式结合已训练的教师模型对学生模型进行训练，在训练过程中分析教师模型提取的类别特征的各项数据之间的关联性，得到类别关联性特征，并通过知识蒸馏的训练方式将类别关联性特征迁移至学生模型，使得学生模型在提取特征的过程中关注类别间的关系，从而能够提取鲁棒性更强的特征，进而使结构相对简单的学生模型在保持高性能的情况下具有更高的分类精度。权利要求书3页说明书11页附图6页 CN 113642532 B 2022.02.08 CN 113642532 B 1.一种视频分类模型处理方法，其特征在于，所述方法包括：将样本视频帧输入训练好的教师模型进行处理，获取所述教师模型输出的第一类别特征及第一类别关联性特征，并根据所述第一类别特征及第一类别关联性特征确定第一组合特征；所述第一类别特征包括所述样本视频帧在多个预设分类上的特征数据；所述第一类别关联性特征表征所述第一类别特征中不同预设分类的特征数据之间的关联性；将所述样本视频帧输入训练好的学生模型进行处理，获取所述学生模型输出的预测分类结果；通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值；根据所述预测分类结果及所述样本视频帧的视频帧分类标签确定分类损失值；根据所述蒸馏损失值和所述分类损失值对所述学生模型的模型参数进行调整；其中，所述教师模型包括第一特征提取单元及第一类别关系感知单元；所述将样本视频帧输入训练好的教师模型进行处理，获取所述教师模型输出的第一类别特征及第一类别关联性特征的步骤，包括：将所述样本视频帧输入所述第一特征提取单元，获得所述第一类别特征；将所述第一类别特征输入所述第一类别关系感知单元，通过所述第一类别关系感知单元提取所述第一类别特征中各项特征数据之间的关联性特征，获得所述第一类别关联性特征。 2.根据权利要求1所述的方法，其特征在于，所述第一组合特征包括第一拼接特征；所述第一特征提取单元包括多个第一特征提取层及第一全连接层；所述将所述样本视频帧输入所述第一特征提取单元，获得所述第一类别特征的步骤，包括：将所述样本视频帧输入所述第一特征提取单元，通过所述多个第一特征提取层对所述样本视频帧进行特征提取，通过所述第一全连接层对所述多个第一特征提取层输出的数据进行处理获得所述第一类别特征；所述根据所述第一类别特征及第一类别关联性特征确定第一组合特征的步骤，包括：对所述第一类别特征及所述第一类别关联性特征进行拼接，获得所述第一拼接特征。 3.根据权利要求2所述的方法，其特征在于，所述学生模型包括第二特征提取单元，所述第二特征提取单元包括多个第二特征提取层及第二全连接层，所述知识蒸馏模型包括分别与所述多个第二特征提取层对应的多个第一知识蒸馏单元；所述蒸馏损失值包括第一蒸馏损失值；所述通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值的步骤，包括：针对每个所述第一知识蒸馏单元，根据多个所述第一特征提取层输出的特征数据、所述第一拼接特征以及与该第一知识蒸馏单元对应的第二特征提取层输出的特征数据进行知识蒸馏计算，获得第一蒸馏损失值。 4.根据权利要求3所述的方法，其特征在于，所述第一组合特征还包括第一融合特征；所述知识蒸馏模型还包括第二知识蒸馏单元；所述蒸馏损失值还包括第二蒸馏损失值；所述教师模型还包括第三全连接层；权　利　要　求　书 1/3 页 2 CN 113642532 B 2所述根据所述第一类别特征及第一类别关联性特征确定第一组合特征的步骤，还包括：通过所述第三全连接层对所述第一拼接特征进行处理，获得第一融合特征；所述方法还包括：获取所述学生模型对所述样本视频帧进行处理所输出的第二类别特征及第二类别关联性特征，并根据所述第二类别特征及第二类别关联性特征确定第二融合特征；所述第二类别特征包括所述样本视频帧在多个预设分类上的特征数据；所述第二类别关联性特征表征所述第二类别特征中不同预设分类的特征数据之间的关联性；所述通过知识蒸馏模型结合所述第一组合特征对所述教师模型和所述学生模型提取的特征进行知识蒸馏处理，获得蒸馏损失值的步骤，还包括：通过所述第二知识蒸馏单元根据所述第一融合特征和所述第二融合特征进行知识蒸馏处理，获得第二蒸馏损失值。 5.根据权利要求4所述的方法，其特征在于，所述学生模型还包括第二类别关系感知单元及第四全连接层；所述获取所述学生模型对所述样本视频帧进行处理所输出的第二类别特征及第二类别关联性特征，并根据所述第二类别特征及第二类别关联性特征确定第二融合特征的步骤，包括：将所述样本视频帧输入所述第二特征提取单元，通过所述多个第二特征提取层对所述样本视频帧进行特征提取，通过所述第二全连接层对所述多个第二特征提取层输出的数据进行处理获得所述第二类别特征；将所述第二类别特征输入所述第二类别关系感知单元，通过所述第二类别关系感知单元提取所述第二类别特征中各项特征数据之间的关联性特征，获得所述第二类别关联性特征；对所述第二类别特征及所述第二类别关联性特征进行拼接，获得第二拼接特征；通过所述第四全连接层对所述第二拼接特征进行处理，获得第二融合特征。 6.根据权利要求2所述的方法，其特征在于，所述将所述第一类别特征输入所述第一类别关系感知单元，通过所述第一类别关系感知单元提取所述第一类别特征中各项特征数据之间的关联性特征，获得所述第一类别关联性特征的步骤，包括：通过所述第一类别关系感知单元中共享权重的第一卷积单元对所述第一类别特征进行处理，获得第一K矩阵、第一 Q矩阵及第一V 矩阵；将所述第一K矩阵与转置后的第一 Q矩阵相乘，获得第一关系矩阵；对所述第一关系矩阵进行逻辑回归处理，并与所述第一V矩阵相乘，获得所述第一类别关联性特征。 7.根据权利要求5所述的方法，其特征在于，所述将所述第二类别特征输入所述第二类别关系感知单元，通过所述第二类别关系感知单元提取所述第二类别特征中各项特征数据之间的关联性特征，获得所述第二类别关联性特征的步骤，包括：通过所述第二类别关系感知单元中共享权重的第二卷积单元对所述第二类别特征进行处理，获得第二K矩阵、第二 Q矩阵及第二V 矩阵；将所述第二K矩阵与转置后的第二 Q矩阵相乘，获得第二关系矩阵；权　利　要　求　书 2/3 页 3 CN 113642532 B 3

专利 视频分类模型处理方法、装置及数据处理设备

专利视频分类模型处理方法、装置及数据处理设备