专利 一种面向零样本识别的字典学习方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111237748.X (22)申请日 2021.10.2 2 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人王立春　李爽　王少帆　孔德慧　尹宝才　 (74)专利代理机构北京市中闻律师事务所 11388 代理人冯梦洪 (51)Int.Cl. G06V 10/772(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种面向零样本识别的字典学习方法及装置 (57)摘要公开一种面向零样本识别的字典学习方法及装置，可以从类别层面和图像层面分别建立视觉空间和语义空间之间的对齐，从而实现高精度的零样本图像识别。方法包括： (1)基于跨域字典学习方法训练类别层的跨域字典； (2)基于步骤 (1)学习的类别层跨域字典生成图像的语义属性； (3)基于步骤(2)生成的图像语义属性训练图像层的跨域字典； (4)基于步骤(3)学习的图像层跨域字典完成对不可见类别图像的识别任务。权利要求书4页说明书8页附图2页 CN 114037879 A 2022.02.11 CN 114037879 A 1.一种面向零样本识别的字典学习方法，其特征在于：该方法包括以下步骤： (1)基于跨域字典学习方法训练类别层的跨域字典； (2)基于步骤(1)学习的类别层跨域字典生成图像的语义属性； (3)基于步骤(2)生成的图像语义属性训练图像层的跨域字典； (4)基于步骤(3)学习的图像层跨域字典完成对不可见类别图像的识别任务。 2.根据权利要求1所述的面向零样本识别的字典学习方法，其特征在于：所述步骤(1) 包括： (1.1)通过计算可见类别图像的类别中心提取视觉空间的类别原型Pv，为公式(1)：其中， Yv是样本特征矩阵； H为样本标签矩阵； (1.2)将类别原型Pv与类别语义属性Ps组成一对输入，训练类别层的跨域字典，通过约束类别原型与类别语义属性共享稀疏系数在类别层面建立视觉空间和语义空间之间的联系，具体表达式为公式(2)：其中，第一项为视觉空间字典重构误差项；第二项为语义空间字典的重构误差项； Dv为视觉空间字典； Ds为语义空间字典； Xp为稀疏系数矩阵； λ为调和参数； (1.3)为了降低可见类别和不可见类别之间的域差异对模型精度造成的影响，提升模型对不可见类别样本的识别能力，引入不可见类别的自适应损失函数，为公式(3)：其中，为待求解的不可见类的类别原型；为不可见类别的语义属性矩阵；为不可见类别对应的稀疏系数矩阵；类别层的联合损失函数为公式(4)：类别层的训练目标是最小化式(4)所示的损失函数，待求解出变量包括：视觉空间字典 Dv；语义空间字典Ds；可见类别原型Pv；不可见类别原型可见类稀疏系数Xp；不可见类稀疏系数 3.根据权利要求2所述的面向零样本识别的字典学习方法，其特征在于：所述步骤(2) 包括： (2.1)利用视觉空间字典Dv生成图像的稀疏系数 Xy，具体表达式为公式(5)：其中，第一项为重构误差项；第二项为约束项，约束生成的图像稀疏系数与其所属类别基于同一个视觉空间字典Dv生成的稀疏系数相近； wx为调和参数； (2.2)利用语义空间字典Ds和其所属类别语义属性Ps联合生成图像语义属性Ys，具体表达式为公式(6)：权　利　要　求　书 1/4 页 2 CN 114037879 A 2其中， wp为调和参数。 4.根据权利要求3所述的面向零样本识别的字典学习方法，其特征在于：所述步骤(3) 包括：为了更加深入地挖掘图像的信息，提升模型的泛化性能，利用步骤(2)生成的图像语义属性训练图像层的跨域字典，具体表达式为公式(7)：其中，第一项为视觉空间的重构误差项；第二项为语义空间的重构误差项；和分别为视觉空间和语义空间在图像层的字典； X为稀疏系数； μ为调和参数。 5.根据权利要求4所述的面向零样本识别的字典学习方法，其特征在于：所述步骤(4) 包括：在视觉空间比较方面：不可见类别语义属性首先通过图像层语义空间字典生成稀疏系数Xu，为公式 (8)：再利用视觉空间字典生成类别在视觉空间的表达分别度量测试图像与每个类别描述的距离并根据距离判断测试图像的类别，为公式(9)：在稀疏域比较方面：测试图像根据图像层的视觉空间字典提取其在稀疏空间的表达，为公式(10)：度量xu与各类别在稀疏空间的描述Xu[c]之间的距离，距离测试图像最近的类别为该图像的类别，为公式(1 1)：在语义空间比较方面：首先根据图像层的视觉空间字典对测试图像进行编码，得到xu；然后根据图像层的语义空间字典生成图像的语义属性度量ys与各类别语义属性的距离并根据距离判断测试图像的类别，为公式(12)： 6.根据权利要求5所述的面向零样本识别的字典学习方法，其特征在于：该方法在两个基于零样本识别任务的图像数据集： A wA数据集、 aPY数据集上进行实验，并且将识别精度与目前主流零样本识别模型进行对比，包括SJE、 EZSL、 SYNC、 SAE、 CDL、 ALE、 CONSE、 LATEM、 DEVISE； AwA是一个动物图像数据集，其中包含50种动物类别以及30475张图像，每个类有85 个带注释的属性；零样本识别实验的标准划分是将40个类别用作可见类别，将其他10个类别用作不可见类别。 7.一种面向零样本识别的字典学习装置，其特征在于：该装置包括：权　利　要　求　书 2/4 页 3 CN 114037879 A 3

专利 一种面向零样本识别的字典学习方法及装置

专利一种面向零样本识别的字典学习方法及装置