专利 一种基于机器学习的自动化平行组卷的方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111213646.4 (22)申请日 2021.10.19 (65)同一申请的已公布的文献号申请公布号 CN 113656536 A (43)申请公布日 2021.11.16 (73)专利权人深圳市菁优智慧教育股份有限公司地址 518000 广东省深圳市南山区高新南一道中国科技开发院三号楼塔楼1 1B (72)发明人廖丽娜　朱智勇　彭海波　许利宁　 (74)专利代理机构北京三友知识产权代理有限公司 11127 代理人杨丹　郝博 (51)Int.Cl. G06F 16/31(2019.01)G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 16/338(2019.01) G06F 40/194(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (56)对比文件 CN 111339740 A,2020.0 6.26 CN 109003492 A,2018.12.14 CN 112699283 A,2021.04.23 US 2020090539 A1,2020.0 3.19 审查员王国海 (54)发明名称一种基于机器学习的自动化平行组卷的方法及系统 (57)摘要本发明提出了一种基于机器学习的自动化平行组卷的方法及系统，其中，该方法包括：获取原始试卷；根据原始试卷中的题目，利用相似性算法，在候选题库中分别查询与每道题目相似的题目，组成第一题目列表；过滤第一题目列表得到第二题目列表；根据用户对题目及包含题目的试卷的历史处理行为建立预测模型，预测处理行为的概率；根据处理行为的概率计算题目评分，按照题目评分排序，选取排名靠前的一定数量的题目；对每种处理行为的概率分别进行排名，将排名转换为分数并融合排序，在组成平行试卷；根据用户对题目顺序的历史更改数据建立顺序调整模型，调整平行试卷中试题顺序；展示平行试卷，并根据用户的换题操作及顺序调整操作，得到最终试卷。权利要求书7页说明书11页附图4页 CN 113656536 B 2022.02.08 CN 113656536 B 1.一种基于机器学习的自动化平行组卷的方法，其特征在于，该方法包括： S1，获取原始试卷； S2，根据所述原始试卷中的题目，利用相似性算法，在候选题库中分别查询与每道题目相似度最高的一定数量的题目，组成第一题目列表；其中，包括：利用相似性算法，根据每道题目的i2i向量，计算i2i向量之间的余弦相似度距离，根据所述余弦相似度距离，寻找到与当前题目相似度最高的一定数量的题目，组成第一题目列表；其中， i2i向量的计算过程为：获取单个用户连续多天组卷行为的频率低于预设组卷频率值的组卷数据；在组卷数据中过滤掉用户选题频率超过预设选题频率值的组卷数据；利用skip_gram模型训练i2i向量；设定题目集合，其中包含出现超过一定次数的题目；创建Embedding矩阵和Context矩阵，矩阵在词汇表中嵌入了每个单词，其中， question_size为第一维度， embedding_siz e为第二维度，第二维度是每次嵌入的长度：行数=题目表的大小，列数=题目向量的维度；在训练过程开始时，利用随机值初始化矩阵；在每个训练过程中，采用一个相邻的题目及其相关的非相邻题目作为样本数据，将相邻的题目作为正样本，非相邻的题目作为负样本；在正样本的选取过程中，对于热门题目采用正样本降采样的采样方法，降低热门题目的正样本采样率；其中，热门题目是用于完成组卷的频次大于等于一设定值的题目；正样本采样率P正(wi)的计算公式为：；式中，z(wi)表示第i个题目在所有试卷中出现的频率；负样本采用候选题库，负样本采样率 P负(wi)的计算公式为：；式中，f(wi)为wi在试卷中出现的频率； wi为第i个item，即第 i个题目；wj为第j个item，即第j个题目；n为候选题库总数量；查看Embedding矩阵得到输入题目，查看Context矩阵得到上下文题目，计算输入题目的输入嵌入与每个上下文题目的上下文嵌入的点积，将点积带入 sigmoid函数，获得skip_ gram模型对于当前sample样本的模型预测值；模型预测值域与实际的sample值有偏差，计算公式为： error=target‑sigmoid_scores；式中，error为偏差，target为训练样本的label，即样本实际的值； sigmoid_scores为模型预估的目标；根据error值，利用梯度下降的更新方式，调整sk ip_gram模型的题目向量；权　利　要　求　书 1/7 页 2 CN 113656536 B 2根据调整后的sk ip_gram模型得到题目的i2i向量；寻找到与当前题目相似度最高的一定数量的题目的过程为：向量搜索利用B ‑数的原理，构建题目向量搜索树，所述题目向量搜索树为m叉树，树的每个节点都是一个向量，向量空间按照m叉树的层次进行划分； m叉树的生成方式包括： m叉树的第n层，其中，根节点为第0层， n≥0，共有mn个节点；选取当前向量空间中mn的相互之间距离最远的题目向量组成；每个非叶子节点有m个子节点，选取与当前父节点距离最近的且没有被选取过的节点； m叉树的所有节点构成当前题库向量空间的所有向量；搜索过程为：设置选择k个与当前向量相似的其它向量，其中， k≥2 ×m；生成一个包含2 ×k个位置的小根堆，排序方式是目标题目的向量与向量空间中向量的余弦相似度，小根堆可以将序列内与当前向量位置最远的向量排到根节点上；层次遍历题目向量搜索树，选取前2 ×k个向量加入小根堆，以当前小根堆内的节点为父节点，遍历题目向量搜索树中的子节点，并且将遍历到的子节点的向量加入到当前的小根堆中；如果当前小根堆的总数超过了2 ×k，删除小根堆顶部的向量并且自动进行调整，直到重新变成一个小根堆；在遍历完毕后，小根堆储存当前向量空间中与目标题目最接近的2 ×k个题目，排序后取出里面的k个题目；其中，排序的依据是将两道题目的题目向量之间进行点积操作，点积结果越大越相似，按照点积结果由大到小排序，选取前k个题目； S3，对第一题目列表进行过滤，得到第二题目列表； S4，根据用户对题目及包含题目的试卷的历史处理行为建立预测模型，利用所述预测模型对所述第二题目列表中题目的处理行为的概率进行预测； S5，根据所述处理行为的概率计算题目评分，按照题目评分对第二题目列表的题目进行排序，选取排名靠前的一定数量的题目； S6，根据所述一定数量的题目，对每种处理行为的概率分别进行排名，将排名转换为分数并融合排序，在融合排序后选取排名第一的题目组成平行试卷； S7，根据用户对题目顺序的历史更改数据建立顺序调整模型，利用顺序调整模型调整所述平行试卷中试题顺序； S8，将调整试题顺序后的平行试卷展示给用户，并根据用户的换题操作及顺序调整操作，得到最终试卷。 2.根据权利要求1所述的基于机器学习的自动化平行组卷的方法，其特征在于，获取原始试卷，包括：根据下载量、收藏频率、试卷来源在内信息筛选试卷，建立优质试卷库；根据用户当前选择的教材版本、当前的学科、当前的知识点、当前学校、当前地区、历史上组卷信息，将优质试卷库中的试卷排序展示，由用户选择一份原始试卷。 3.根据权利要求1所述的基于机器学习的自动化平行组卷的方法，其特征在于，对第一题目列表进行过滤，得到第二题目列表，包括：去掉用户最近已经选过、过滤掉的、不符合设置的筛选条件的题目；其中，设置的筛选条件包括：题目版本，知识点，章节，难度系数及题目类型中的一项或多项的组合。权　利　要　求　书 2/7 页 3 CN 113656536 B 3

专利 一种基于机器学习的自动化平行组卷的方法及系统

专利一种基于机器学习的自动化平行组卷的方法及系统