iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111182850.4 (22)申请日 2021.10.1 1 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 孙钰清 邵世臣 李永恒 邹仁华 赵廷辉 (74)专利代理 机构 北京市通商律师事务所 11951 代理人 巩靖 (51)Int.Cl. G06F 16/35(2019.01) G06N 20/00(2019.01) (54)发明名称 试题文件筛选方法、 模 型训练方法、 装置、 设 备及介质 (57)摘要 本公开提供了一种试题文件筛选方法、 模 型 训练方法、 装置、 设备及介质, 本公开涉及人工智 能技术领域, 具体涉及目标识别的技术领域, 可 应用于试题文件筛选等场景。 具体实现方案为: 提取待识别的目标文件的多个维度的特征信息, 目标文件的维度包括标题维度、 摘要维度、 正文 维度和文件格式维度; 基于多个维度的特征信息 确定出目标文件 是否属于试题文件的识别结果; 当目标文件为试题文件时, 从目标文件提取出至 少一种预设的试题标签信息, 基于试题标签信息 对目标文件进行分类。 上述过程可以提高文件的 识别结果的准确率, 试题文件的筛选过程可以自 动完成, 既提高了试题筛选的效率, 又可 以降低 人工成本 。 权利要求书3页 说明书12页 附图5页 CN 114020904 A 2022.02.08 CN 114020904 A 1.一种试题文件筛 选方法, 包括: 提取待识别的目标文件的多个维度的特征信息, 所述目标文件的维度包括标题维度、 摘要维度、 正文维度和文件格式维度; 基于所述多个维度的特 征信息确定出 所述目标文件是否属于试题文件的识别结果; 当所述目标文件为试题文件时, 从所述目标文件提取出至少一种预设的试题标签信 息, 基于所述试题标签信息对所述目标文件进行分类。 2.根据权利要求1所述的方法, 其中, 所述基于所述多个维度的特征信 息确定出所述目 标文件是否属于试题文件的识别结果, 包括: 将所述多个维度的特征信 息输入到预先训练 的试题识别模型, 利用所述试题识别模型 输出所述目标文件是否属于试题文件的识别结果。 3.根据权利要求2所述的方法, 其中, 所述利用所述试题识别模型输出所述目标文件是 否属于试题文件的识别结果, 包括: 针对每个维度的特征信 息, 利用所述试题识别模型根据 特征信息确定出所述目标文件 属于试题文件的可信度; 根据多个维度的特征信 息分别对应的可信度, 确定出所述目标文件是否属于试题文件 的识别结果。 4.根据权利要求3所述的方法, 其中, 所述根据多个维度的特征信息分别对应的可信 度, 确定出 所述目标文件是否属于试题文件的识别结果, 包括: 对多个维度的特 征信息分别对应的可信度进行加权求和, 得到综合可信度; 基于所述综合可信度和预设的可信度阈值, 确定出所述目标文件是否属于试题文件的 识别结果; 其中, 每个维度的特征信息对应的可信度的权重, 是通过对所述试题识别模型进行训 练而得到的。 5.根据权利要求1至4中任一项所述的方法, 其中, 所述提取待识别的目标文件的多个 维度的特 征信息, 包括: 针对所述目标文件的标题维度, 在待识别的目标文件的标题文本中提取出标题关键 词, 将所述标题关键词作为所述标题维度的特 征信息; 和/或, 针对所述目标文件的摘要维度, 在待识别的目标文件的摘要文本 中提取出摘要 关键词, 将所述摘要关键词作为所述标题维度的特 征信息。 6.根据权利要求1至4中任一项所述的方法, 其中, 所述提取待识别的目标文件的多个 维度的特 征信息, 包括: 针对所述目标文件的正文维度, 在待识别的目标文件的正文中提取出高频词汇和/或 题目问句; 将所述高频词汇和/或所述题目问句作为所述 正文维度的特 征信息。 7.根据权利要求1至4中任一项所述的方法, 其中, 所述提取待识别的目标文件的多个 维度的特 征信息, 包括: 针对所述目标文件的文件格式维度, 检测出待识别的目标文件的格式类型; 将所述格式类型作为所述文件格式维度的特 征信息。 8.根据权利要求1至4中任一项所述的方法, 所述目标文件的维度还包括文件类型维权 利 要 求 书 1/3 页 2 CN 114020904 A 2度; 所述提取待识别的目标文件的多个维度的特 征信息, 包括: 针对所述目标文件的文件类型维度, 检测出待识别的目标文件的文件类型; 将所述文件类型作为所述文件类型维度的特 征信息。 9.根据权利要求1至4中任一项所述的方法, 其中, 所述从所述目标文件提取出至少一 种预设的试题标签信息, 包括: 所述从所述目标文件提取出地 区信息、 学段信 息和科目信 息中的至少一个作为试题标 签。 10.一种试题 识别模型训练方法, 包括: 标注多个样本文件中每 个样本文件是否属于试题文件的实际结果; 提取所述多个样本文件中每个样本文件的多个维度的特征信 息, 所述样本文件的维度 包括标题维度、 摘要维度、 正文维度和文件格式维度; 将所述多个维度的特征信 息输入到试题识别模型, 利用所述试题识别模型输出所述样 本文件是否属于试题文件的识别结果; 基于各所述样本文件的所述实际结果和所述识别结果, 确定出所述试题识别模型的识 别准确率; 基于所述识别准确率和预设的准确率阈值, 调整所述试题 识别模型的参数。 11.根据权利要求10所述的方法, 其中, 所述利用所述试题识别模型输出所述样本文件 是否属于试题文件的识别结果, 包括: 针对每个维度的特征信 息, 利用所述试题识别模型根据 特征信息确定出所述样本文件 属于试题文件的可信度; 根据多个维度的特征信 息分别对应的可信度, 确定出所述样本文件是否属于试题文件 的识别结果。 12.根据权利要求1 1所述的方法, 其中, 所述根据多个维度的特征信 息分别对应的可信度, 确定出所述样本文件是否属于试题 文件的识别结果, 包括: 对多个维度的特征信息分别对应的可信度进 行加权求和, 得到综合 可信度; 基于所述综合可信度和预设的可信度阈值, 确定出所述样本文件是否属于试题文 件的识别结果; 所述调整所述试题识别模型的参数, 包括: 调整所述试题识别模型中每个维度的特征 信息对应的可信度的权 重。 13.一种试题文件筛 选装置, 包括: 目标特征提取模块, 用于提取待识别的目标文件的多个维度的特征信息, 所述目标文 件的维度包括标题维度、 摘要维度、 正文维度和文件格式维度; 目标结果输出模块, 用于基于所述多个维度的特征信 息确定出所述目标文件是否属于 试题文件的识别结果; 试题分类模块, 用于当所述目标文件为试题文件时, 从所述目标文件提取出至少一种 预设的试题标签信息, 基于所述试题标签信息对所述目标文件进行分类。 14.根据权利要求13所述的装置, 其中, 所述目标特征提取模块在用于基于所述多个维 度的特征信息确定出 所述目标文件是否属于试题文件的识别结果时, 具体用于: 将所述多个维度的特征信 息输入到预先训练 的试题识别模型, 利用所述试题识别模型权 利 要 求 书 2/3 页 3 CN 114020904 A 3
专利 试题文件筛选方法、模型训练方法、装置、设备及介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 人生无常 于
2024-03-19 02:03:04
上传分享
举报
下载
原文档
(759.3 KB)
分享
友情链接
GB-T 37027-2018 信息安全技术 网络攻击定义及描述规范.pdf
TB-T 1842.3-2016 受电弓滑板 第3部分:碳滑板.pdf
DL-T 1269-2023 火力发电建设工程机组蒸汽吹管导则.pdf
GB-T 39308-2020 难降解有机废水深度处理技术规范.pdf
GB-T 14592-2014 钼圆片.pdf
T-ISC 0022—2023 数字孪生城市平台技术要求.pdf
信息安全风险评估表格.docx
DB4403-T 12-2019 物业服务要求 商务写字楼 深圳市.pdf
GB-T 32614-2016 户外运动服装 冲锋衣.pdf
GB-T 43553.1-2023 智能工厂数字化交付 第1部分:通用要求.pdf
T-WCGH 002—2022 武夷岩茶冲泡品鉴茶具.pdf
硅创社2024001-AIGC2023~2024跨年报告V1.0 2024.pdf
SC-T 9404-2012 水下爆破作业对水生生物资源及生态环境损害评估方法.pdf
ISO IEC 20924 2024 Internet of Things (IoT) and digital twin — Vocabulary.pdf
GB-T 30688-2014 馆藏砖石文物病害与图示.pdf
思度安全-DSMM-002 岗位职责说明书V1.0.pdf
GB-T 39520-2020 弹簧残余应力的X射线衍射测试方法.pdf
SN-T 5476-2022 进境马属动物指定隔离检疫场建设规范.pdf
GB-T 42589-2023 信息安全技术 电子凭据服务安全规范.pdf
GM-T 0035.5-2014 射频识别系统密码应用技术要求 第5部分:密钥管理技术要求.pdf
1
/
3
21
评价文档
赞助3元 点击下载(759.3 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。