iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111213646.4 (22)申请日 2021.10.19 (65)同一申请的已公布的文献号 申请公布号 CN 113656536 A (43)申请公布日 2021.11.16 (73)专利权人 深圳市菁优智慧教育股份有限公 司 地址 518000 广东省深圳市南 山区高新 南 一道中国科技 开发院三 号楼塔楼1 1B (72)发明人 廖丽娜 朱智勇 彭海波 许利宁  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 代理人 杨丹 郝博 (51)Int.Cl. G06F 16/31(2019.01)G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 16/338(2019.01) G06F 40/194(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (56)对比文件 CN 111339740 A,2020.0 6.26 CN 109003492 A,2018.12.14 CN 112699283 A,2021.04.23 US 2020090539 A1,2020.0 3.19 审查员 王国海 (54)发明名称 一种基于机器学习的自动化平行组卷的方 法及系统 (57)摘要 本发明提出了一种基于机器学习的自动化 平行组卷的方法及系统, 其中, 该方法包括: 获取 原始试卷; 根据原始试卷中的题目, 利用相似性 算法, 在候选题库中分别查询与每道题目相似的 题目, 组成第一题目列表; 过滤第一题目列表得 到第二题目列表; 根据用户对题目及包含题目的 试卷的历史处理行为建立预测模 型, 预测处理行 为的概率; 根据处理行为的概率计算题目评分, 按照题目评分排序, 选取排名靠前的一定数量的 题目; 对每种处理行为的概率分别进行排名, 将 排名转换为分数并融合排序, 在组成平行试卷; 根据用户对题目顺序的历史更改数据建立顺序 调整模型, 调整平行试卷中试题顺序; 展示平行 试卷, 并根据用户的换题操作及顺序调整操作, 得到最终试 卷。 权利要求书7页 说明书11页 附图4页 CN 113656536 B 2022.02.08 CN 113656536 B 1.一种基于 机器学习的自动化平行组卷的方法, 其特 征在于, 该 方法包括: S1, 获取原 始试卷; S2, 根据所述原始试卷中的题目, 利用相似性算法, 在候选题库中分别查询与每道题目 相似度最高的一定数量的题目, 组成第一题目列表; 其中, 包括: 利用相似性算法, 根据每道题目的i2i向量, 计算i2i向量之间的余弦相似度距离, 根据 所述余弦相似度距离, 寻找到与当前题目相似度最高的一定数量的题目, 组成第一题目列 表; 其中, i2i向量的计算过程 为: 获取单个用户连续多天组卷 行为的频率低于预设组卷 频率值的组卷 数据; 在组卷数据中过 滤掉用户选题频率超过 预设选题频率 值的组卷 数据; 利用skip_gram模型训练i2i向量; 设定题目集 合, 其中包 含出现超过一定次数的题目; 创建Embedding矩阵和Context矩阵, 矩阵在词汇表中嵌入了每个单词, 其中, question_size为第一维度,  embedding_siz e为第二维度, 第二维度是每次嵌入的长度: 行 数=题目表的大小, 列数=题目向量的维度; 在训练过程 开始时, 利用随机值初始化矩阵; 在每个训练过程中, 采用一个相邻的题目及其相关的非相邻题目作为样本数据, 将相 邻的题目作为 正样本, 非相邻的题目作为负 样本; 在正样本的选取过程中, 对于热门题目采用正样本降采样的采样方法, 降低热门题目 的正样本采样率; 其中, 热门题目是用于完成组卷的频次大于等于一设定值的题目; 正样本 采样率P正(wi)的计算公式为: ; 式中,z(wi)表示第i个题目在所有试 卷中出现的频率; 负样本采用候选题库, 负 样本采样率 P负(wi)的计算公式为: ; 式中,f(wi)为wi在试卷中出现的频率; wi为第i个item, 即第 i个题目;wj为第j个item, 即 第j个题目;n为候选题库总数量; 查看Embedding矩阵得到输入题目, 查看Context矩阵得到上下文题目, 计算输入题目 的输入嵌入与每个上下文题目的上下文嵌入的点积, 将点积带入 sigmoid函数, 获得skip_ gram模型对于当前sample样本的模型 预测值; 模型预测值域与实际的sample值有偏差, 计算公式为: error=target‑sigmoid_scores; 式中,error为偏差,target为训练样本的label, 即样本实际的值; sigmoid_scores为 模型预估的目标; 根据error值, 利用梯度下降的更新方式, 调整sk ip_gram模型的题目向量;权 利 要 求 书 1/7 页 2 CN 113656536 B 2根据调整后的sk ip_gram模型 得到题目的i2i向量; 寻找到与当前题目相似度最高的一定数量的题目的过程 为: 向量搜索利用B ‑数的原理, 构建题目向量搜索树, 所述题目向量搜索树为m叉树, 树的 每个节点都是一个向量, 向量空间按照m叉树的层次进行划分; m叉树的生成方式包括: m叉树的第n层, 其中, 根节点为第0层, n≥0, 共有mn个节点; 选取当前向量 空间中mn的相 互之间距离最远的题目向量组成; 每个非叶子节 点有m个子节点, 选取与当前父节点距离最 近的且没有被选取 过的节点; m叉树的所有节点构成当前题库向量空间的所有向量; 搜索过程 为: 设置选择k个与当前向量相似的其它向量, 其中, k≥2 ×m; 生成一个包含2 ×k个位置的小根堆, 排序 方式是目标题目的向量与向量空间中向量的 余弦相似度, 小根 堆可以将序列内与当前向量 位置最远的向量 排到根节点上; 层次遍历题目向量搜索树, 选取前2 ×k个向量加入小根堆, 以当前小根堆内的节点为 父节点, 遍历题目向量搜索树中的子节点, 并且将遍历到的子节点的向量加入到当前 的小 根堆中; 如果当前小根堆的总数超过了2 ×k, 删除小根堆顶部的向量并且自动进行调整, 直到 重新变成一个小根 堆; 在遍历完毕后, 小根堆储存当前向量空间中与目标题目最接近的2 ×k个题目, 排序后 取出里面的k个题目; 其中, 排序的依据是将两道题目的题目向量之间进行点积操作, 点积 结果越大越相似, 按照点积结果由大到小排序, 选取 前k个题目; S3, 对第一题目列表进行 过滤, 得到第二题目列表; S4, 根据用户对题目及包含题目的试卷的历史处理行为建立预测模型, 利用所述预测 模型对所述第二题目列表中题目的处 理行为的概 率进行预测; S5, 根据所述处理行为的概率计算题目评分, 按照题目评分对第二题目列表的题目进 行排序, 选取排名靠前的一定数量的题目; S6, 根据所述一定数量的题目, 对每种处理行为的概率分别进行排名, 将排名转换为分 数并融合 排序, 在融合 排序后选取排名第一的题目组成平行 试卷; S7, 根据用户对题目顺序的历史更改数据建立顺序调整模型, 利用顺序调整模型调整 所述平行 试卷中试题顺序; S8, 将调整试题顺序后的平行试卷展示给用户, 并根据用户的换题操作及顺序调整操 作, 得到最终试 卷。 2.根据权利要求1所述的基于机器学习的自动 化平行组卷的方法, 其特征在于, 获取原 始试卷, 包括: 根据下载量、 收藏频率、 试 卷来源在内信息 筛选试卷, 建立优质试 卷库; 根据用户当前选择的教材版本、 当前的学科、 当前的知识点、 当前学校、 当前地区、 历史 上组卷信息, 将优质试 卷库中的试 卷排序展示, 由用户选择一份原 始试卷。 3.根据权利要求1所述的基于机器学习的自动 化平行组卷的方法, 其特征在于, 对第 一 题目列表进行 过滤, 得到第二题目列表, 包括: 去掉用户最近已经选过、 过滤掉的、 不符合设置的筛选条件的题目; 其中, 设置的筛选 条件包括: 题目版本, 知识点, 章节, 难度系数及题目类型中的一项或多 项的组合。权 利 要 求 书 2/7 页 3 CN 113656536 B 3

.PDF文档 专利 一种基于机器学习的自动化平行组卷的方法及系统

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习的自动化平行组卷的方法及系统 第 1 页 专利 一种基于机器学习的自动化平行组卷的方法及系统 第 2 页 专利 一种基于机器学习的自动化平行组卷的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。