(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111213646.4
(22)申请日 2021.10.19
(65)同一申请的已公布的文献号
申请公布号 CN 113656536 A
(43)申请公布日 2021.11.16
(73)专利权人 深圳市菁优智慧教育股份有限公
司
地址 518000 广东省深圳市南 山区高新 南
一道中国科技 开发院三 号楼塔楼1 1B
(72)发明人 廖丽娜 朱智勇 彭海波 许利宁
(74)专利代理 机构 北京三友知识产权代理有限
公司 11127
代理人 杨丹 郝博
(51)Int.Cl.
G06F 16/31(2019.01)G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 16/338(2019.01)
G06F 40/194(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 20/00(2019.01)
(56)对比文件
CN 111339740 A,2020.0 6.26
CN 109003492 A,2018.12.14
CN 112699283 A,2021.04.23
US 2020090539 A1,2020.0 3.19
审查员 王国海
(54)发明名称
一种基于机器学习的自动化平行组卷的方
法及系统
(57)摘要
本发明提出了一种基于机器学习的自动化
平行组卷的方法及系统, 其中, 该方法包括: 获取
原始试卷; 根据原始试卷中的题目, 利用相似性
算法, 在候选题库中分别查询与每道题目相似的
题目, 组成第一题目列表; 过滤第一题目列表得
到第二题目列表; 根据用户对题目及包含题目的
试卷的历史处理行为建立预测模 型, 预测处理行
为的概率; 根据处理行为的概率计算题目评分,
按照题目评分排序, 选取排名靠前的一定数量的
题目; 对每种处理行为的概率分别进行排名, 将
排名转换为分数并融合排序, 在组成平行试卷;
根据用户对题目顺序的历史更改数据建立顺序
调整模型, 调整平行试卷中试题顺序; 展示平行
试卷, 并根据用户的换题操作及顺序调整操作,
得到最终试 卷。
权利要求书7页 说明书11页 附图4页
CN 113656536 B
2022.02.08
CN 113656536 B
1.一种基于 机器学习的自动化平行组卷的方法, 其特 征在于, 该 方法包括:
S1, 获取原 始试卷;
S2, 根据所述原始试卷中的题目, 利用相似性算法, 在候选题库中分别查询与每道题目
相似度最高的一定数量的题目, 组成第一题目列表; 其中, 包括:
利用相似性算法, 根据每道题目的i2i向量, 计算i2i向量之间的余弦相似度距离, 根据
所述余弦相似度距离, 寻找到与当前题目相似度最高的一定数量的题目, 组成第一题目列
表; 其中,
i2i向量的计算过程 为:
获取单个用户连续多天组卷 行为的频率低于预设组卷 频率值的组卷 数据;
在组卷数据中过 滤掉用户选题频率超过 预设选题频率 值的组卷 数据;
利用skip_gram模型训练i2i向量;
设定题目集 合, 其中包 含出现超过一定次数的题目;
创建Embedding矩阵和Context矩阵, 矩阵在词汇表中嵌入了每个单词, 其中,
question_size为第一维度, embedding_siz e为第二维度, 第二维度是每次嵌入的长度: 行
数=题目表的大小, 列数=题目向量的维度;
在训练过程 开始时, 利用随机值初始化矩阵;
在每个训练过程中, 采用一个相邻的题目及其相关的非相邻题目作为样本数据, 将相
邻的题目作为 正样本, 非相邻的题目作为负 样本;
在正样本的选取过程中, 对于热门题目采用正样本降采样的采样方法, 降低热门题目
的正样本采样率; 其中, 热门题目是用于完成组卷的频次大于等于一设定值的题目; 正样本
采样率P正(wi)的计算公式为:
;
式中,z(wi)表示第i个题目在所有试 卷中出现的频率;
负样本采用候选题库, 负 样本采样率 P负(wi)的计算公式为:
;
式中,f(wi)为wi在试卷中出现的频率; wi为第i个item, 即第 i个题目;wj为第j个item, 即
第j个题目;n为候选题库总数量;
查看Embedding矩阵得到输入题目, 查看Context矩阵得到上下文题目, 计算输入题目
的输入嵌入与每个上下文题目的上下文嵌入的点积, 将点积带入 sigmoid函数, 获得skip_
gram模型对于当前sample样本的模型 预测值;
模型预测值域与实际的sample值有偏差, 计算公式为:
error=target‑sigmoid_scores;
式中,error为偏差,target为训练样本的label, 即样本实际的值; sigmoid_scores为
模型预估的目标;
根据error值, 利用梯度下降的更新方式, 调整sk ip_gram模型的题目向量;权 利 要 求 书 1/7 页
2
CN 113656536 B
2根据调整后的sk ip_gram模型 得到题目的i2i向量;
寻找到与当前题目相似度最高的一定数量的题目的过程 为:
向量搜索利用B ‑数的原理, 构建题目向量搜索树, 所述题目向量搜索树为m叉树, 树的
每个节点都是一个向量, 向量空间按照m叉树的层次进行划分;
m叉树的生成方式包括:
m叉树的第n层, 其中, 根节点为第0层, n≥0, 共有mn个节点; 选取当前向量 空间中mn的相
互之间距离最远的题目向量组成; 每个非叶子节 点有m个子节点, 选取与当前父节点距离最
近的且没有被选取 过的节点; m叉树的所有节点构成当前题库向量空间的所有向量;
搜索过程 为: 设置选择k个与当前向量相似的其它向量, 其中, k≥2 ×m;
生成一个包含2 ×k个位置的小根堆, 排序 方式是目标题目的向量与向量空间中向量的
余弦相似度, 小根 堆可以将序列内与当前向量 位置最远的向量 排到根节点上;
层次遍历题目向量搜索树, 选取前2 ×k个向量加入小根堆, 以当前小根堆内的节点为
父节点, 遍历题目向量搜索树中的子节点, 并且将遍历到的子节点的向量加入到当前 的小
根堆中;
如果当前小根堆的总数超过了2 ×k, 删除小根堆顶部的向量并且自动进行调整, 直到
重新变成一个小根 堆;
在遍历完毕后, 小根堆储存当前向量空间中与目标题目最接近的2 ×k个题目, 排序后
取出里面的k个题目; 其中, 排序的依据是将两道题目的题目向量之间进行点积操作, 点积
结果越大越相似, 按照点积结果由大到小排序, 选取 前k个题目;
S3, 对第一题目列表进行 过滤, 得到第二题目列表;
S4, 根据用户对题目及包含题目的试卷的历史处理行为建立预测模型, 利用所述预测
模型对所述第二题目列表中题目的处 理行为的概 率进行预测;
S5, 根据所述处理行为的概率计算题目评分, 按照题目评分对第二题目列表的题目进
行排序, 选取排名靠前的一定数量的题目;
S6, 根据所述一定数量的题目, 对每种处理行为的概率分别进行排名, 将排名转换为分
数并融合 排序, 在融合 排序后选取排名第一的题目组成平行 试卷;
S7, 根据用户对题目顺序的历史更改数据建立顺序调整模型, 利用顺序调整模型调整
所述平行 试卷中试题顺序;
S8, 将调整试题顺序后的平行试卷展示给用户, 并根据用户的换题操作及顺序调整操
作, 得到最终试 卷。
2.根据权利要求1所述的基于机器学习的自动 化平行组卷的方法, 其特征在于, 获取原
始试卷, 包括:
根据下载量、 收藏频率、 试 卷来源在内信息 筛选试卷, 建立优质试 卷库;
根据用户当前选择的教材版本、 当前的学科、 当前的知识点、 当前学校、 当前地区、 历史
上组卷信息, 将优质试 卷库中的试 卷排序展示, 由用户选择一份原 始试卷。
3.根据权利要求1所述的基于机器学习的自动 化平行组卷的方法, 其特征在于, 对第 一
题目列表进行 过滤, 得到第二题目列表, 包括:
去掉用户最近已经选过、 过滤掉的、 不符合设置的筛选条件的题目; 其中, 设置的筛选
条件包括: 题目版本, 知识点, 章节, 难度系数及题目类型中的一项或多 项的组合。权 利 要 求 书 2/7 页
3
CN 113656536 B
3
专利 一种基于机器学习的自动化平行组卷的方法及系统
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:59:38上传分享