基于文本相似度的个人笔记管理系统的设计与实现
这是一篇关于个人笔记管理,Markdown,文本相似度,网页应用,前后端分离的论文, 主要内容为信息化已经成为现代社会一个重要的主题,目前人们在日常生活中接触到的信息数量正快速膨胀,如何存放和整理自己接触到的信息就成了必须解决的问题。而电子化的笔记管理系统一直以来在不断演进,为人们在信息化时代的学习和工作提供了帮助。由于Markdown语言的简洁与实用性,支持Markdown语言已成为近年来国内外笔记管理软件的发展趋势。同时,更方便的笔记整理的功能也是用户对未来笔记管理系统的一大期待。针对以上情况,论文设计了个人笔记管理系统,它是一款基于网页应用MVC设计模式与B/S架构、后端接口符合RESTful API规范的完整前后端网页应用,包含完整的用户身份认证系统,能在系统内对Markdown格式的笔记进行编辑与实时预览,并拥有基于文本相似度的笔记整理功能。首先对系统进行整体设计,根据使用场景的不同混合使用多种前端技术。在交互简单的用户模块使用Django自带的模板引擎页面,而在笔记模块与相似度模块则使用基于React.js框架的单页应用技术,以实现前后端的频繁交互流程。随后通过自然语言处理技术来量化文本间的相似程度,对经过分词操作后的文本通过词袋模型进行特征提取并得到词向量,以两组词向量间的夹角余弦值作为它们对应的文本间的相似度数值。再以离线处理的形式进行相似度计算从而避免性能问题,在后端通过实现定时任务定时对数据库内所有的文本进行比对,并设计出文本与文本组之间相似度的衡量方法,定义了专门存储相似度值的数据库模型,并实现了一系列对应的后端API接口。最后通过一系列功能与性能测试,验证了系统基本实现了预期的效果,能够在主流浏览器环境下正常运行。
基于BERT模型的科技成果推荐系统的设计与实现
这是一篇关于科技成果转化,摘要提取,BERT模型,文本相似度的论文, 主要内容为目前,我国在科技成果转化方面的研究不够深入。其中高层次人才匮乏、成果转化机构不健全、科研成果供需不匹配等问题是制约我国科技成果向现实生产力转化的重要因素。本文设计与实现了科技成果推荐系统,利用基于预训练的BERT(Bidirectional Encoder Representations from Transformers)模型来进行供需双方文本关联值计算,得出二者之间的匹配度,进行Top N推荐。该方法能有效节省用户时间,提高我国科技成果转化率。本文分析我国科技成果推荐平台的现状,对X省科学院现有的科技需求信息以及专家文本数据进行深入研究,通过需求分析,设计系统整体框架,实现了科技成果推荐系统,主要的研究内容如下:(1)数据的采集。数据采集自X省专家信息系统以及X省科学院现有的科技成果信息数据。(2)数据的预处理。首先我们对采集到的数据进行筛选清洗,然后对数据中成果内容的空值进行成果标题替换。在该项工作中,选用了一个封装完整的Text Rank摘要提取算法,该算法用来处理技术成果内容和技术需求内容中,超过512个字的长文本,提取出文章关键句,防止因内容过长影响后续模型匹配精度。为了验证算法的有效性,本文设置了人工处理长文本与摘要提取算法的对比实验,将两种采用不同处理方式的文本放入匹配模型中计算匹配结果。其中,人工处理长文本准确率为0.78125,摘要算法处理长文本准确率为0.78328。由此可得,选择摘要提取算法代替人工处理文本的方法是可行的。(3)模型的选择。本文提出两种文本匹配模型。一种是基于TF-IDF的文本匹配算法,另一种是基于BERT的文本匹配模型。在实验阶段,采用X省科学院的成果及专家数据进行测试,利用本文给出的评价指标Ba计算出匹配结果的平均误差率,基于TF-IDF的文本匹配算法平均误差率在0.30附近,基于BERT的文本匹配模型平均误差率在0.26-0.27之间。实验表明,基于BERT的文本匹配模型平均误差率低,正确率高,故本文选用该模型用于推荐功能。(4)模型的训练。微调阶段在用户需求-匹配专家,用户需求-匹配技术成果数据集上进行,对预训练网络和全连接层组成的整体模型的参数进行微调。BERT模型的全连接层上产生一个输出值,再将该值作为输入传递给Softmax分类函数进行分类,可得出每个类别的概率分布,模型将概率最高的类别作为匹配结果,给出文本之间的关联值,由此判断供需文本之间的匹配度。本文的创新点,将自然语言处理技术中的文本匹配模型引入科技成果推荐系统中,取代人工推荐;将采集到的用户需求文档向量化,与技术成果或相关领域专家进行匹配度计算,不依赖用户评价和历史信息,避免了传统推荐算法中的冷启动问题。
基于NLP和爬虫的在线文章阅读系统设计与实现
这是一篇关于文本相似度,在线文章阅读,系统设计的论文, 主要内容为随着互联网的发展,越来越多的人们选择通过网络来获取信息,这使得很多文章以网页文本的形式展现在互联网中。不可避免地,很多重复的文本信息也出现在了互联网上,重复的文本导致人们的阅读体验下降,也导致了互联网上存储空间的冗余。本文通过对自然语言处理的研究,提出了一种多特征融合的文本相似度算法。通过该算法,可以快速对库里的文章进行筛选,将高度相似的文章标记,降低用户多次浏览到相同内容的文章的可能。本文还开发了一套在线文章阅读系统,应用了这种文本相似度算法。系统基于浏览器/服务器模型,后台基于Java语言,使用了比较流行的SSM框架,开发环境是Eclipse。前台基于Html+Vue.js框架,开发环境是Node.js+Microsoft Visual Studio Code。该系统能够实现阅读文章,用户登录,用户注册,阅读历史,信息更改的需求。
基于文本相似度计算的主观题自动阅卷系统研究与实现
这是一篇关于主观题自动评分,文本相似度,孪生网络,命名实体识别,知识图谱的论文, 主要内容为当前社会,随着线上线下教育市场的不断拓展,各类考试的需求不断增加。然而,传统人工阅卷方法由于成本高、耗时长、统计慢,已无法满足现代社会需要。虽然,客观题的自动阅卷技术已非常成熟并得到普遍应用,但由于自然语言处理复杂的汉语技术难度大,在主观题阅卷的处理上还是有许多不足。例如没有考虑语义、语序等问题对评分精度的影响。同时,由于实用性、模型评分过程可见性等问题,目前还没有大规模的中文主观题阅卷系统开发落地。针对以上问题,本文以物流专业真实考卷为样本,提出并实施了两种技术路线,为主观题自动评分系统提供算法支持。1、基于文本相似度的主观题自动评分模型。为了解决物流专业主观题评分问题,本文采用孪生网络模型和命名实体识别的方法,进一步通过模型融合对主观题进行判分。基于孪生网络的文本相似度匹配模型可确保结果准确性,同时基于命名实体识别的得分点识别模型可以提取学生答案与标准答案的得分点序列并进行匹配,通过模拟人工评分的方法,依据具体得分点对结果作出合理解释,命名实体识别方法也能有效提升模型计算效率和长文本匹配效率。2、基于知识图谱的主观题自动评分模型。为了解决基于文本相似度的评分模型在对专业类名词解释题评分时,效果不佳的问题,本文提出了基于知识图谱的主观题自动评分模型。利用物流专业的语料库和公开知识图谱构建共计5314对三元组,并通过知识嵌入模型进行训练。通过知识图谱可以快速有效的获取到知识之间的扩及关系,对语义有较好的表示与融合,因此适用于专业名词解释类等题型。本文对基于两种不同方法的主观题评分模型分别进行了训练和结果比较,对于基于文本相似度的主观题自动评分模型:训练后的得分点识别模型loss值在0.9左右收敛,模型准确率为80.54%,训练后的文本相似度匹配模型准确率为86.99%,融合后的模型单个用例得出评分时间在0.8s以内,基于简答题的测试数据均方误差为0.85,基于名词解释题的测试数据均方误差为1.61;对基于知识图谱的嵌入模型,训练后的MRR值为0.3582,Hits@10为0.3685,在名词解释类题型测试数据上的均方误差为0.45,表现明显优于基于文本相似度的主观题评分模型。本文进一步在上述算法研究基础上搭建了主观题自动阅卷系统,为教师角色、学生角色及管理员提供了相应的操作界面和系统展示。
实验教学智能管理平台自动评分模块的设计与实现
这是一篇关于自然语言处理,BERT,文本分类,文本相似度,自动评分的论文, 主要内容为随着“人工智能+教育”模式的兴起,利用人工智能的优势来促进教育的改革与创新具有非常广泛的研究前景。其中,在自动评分领域,对主观题的自动评分是当前考试智能批改任务的主要难点,目前的阅卷难度主要体现在对主观题的批改上,其批改完全依赖专业领域的相关人员,利用自然语言处理相关技术进行自动评分,对促进教育的公平性和智能化具有重要意义。本文的主要研究内容如下:1.本文通过词向量的方式分别对使用基于文本分类模型和基于语义相似度模型的自动评分任务进行了实验,此外,在这两种方式的自动评分上分别采用CNN、LSTM、BERT三种不同模型架构来进行实验对比,通过对比实验验证了,BERT这种基于预训练的模型相比于传统的CNN、LSTM模型,在分类任务上准确率可提升4%-7%,在语义相似度任务上的准确率能提升3%左右。2.本文设计了一种用于构造相似文本对和不相似文本对数据集的方法。其中相似文本对通过使用相同分数的答案样本进行组合获得正样本,不相似的文本对可以通过不同题目答案之间的组合来获得负样本。该方法可以有效的对采用基于文本相似度方法来进行自动评分的数据集进行扩充,进而可以有效缓解采用深度学习模型进行自动评分时存在数据样本稀缺的问题。3.在对自动评分的算法进行研究之外,本文还设计了一种采用Spring Boot技术的主观题自动评分系统。该系统可供学生用户和教师用户进行注册和登录,教师用户模块的主要功能是试题管理,通过试题管理模块,教师可以进行出题,设置题目的关键词、标准答案和分数。学生用户通过登录该系统来查看教师发布的试题并进行作答,作答完成之后通过自动评分模块给出分数,进而完成在线答题的自动评分任务。4.在自动评分模块中,本文通过使用基于关键词特征和语义相似度相结合的方法对学生答案和参考答案进行对比评分。通过本文的实验,我们提出的模型对比了基于杰卡德相似度评分算法,在自动评分任务上本文提出的模型在平均绝对误差上更小,进一步验证了本文模型在自动评分上具有一定优势。
基于NLP和爬虫的在线文章阅读系统设计与实现
这是一篇关于文本相似度,在线文章阅读,系统设计的论文, 主要内容为随着互联网的发展,越来越多的人们选择通过网络来获取信息,这使得很多文章以网页文本的形式展现在互联网中。不可避免地,很多重复的文本信息也出现在了互联网上,重复的文本导致人们的阅读体验下降,也导致了互联网上存储空间的冗余。本文通过对自然语言处理的研究,提出了一种多特征融合的文本相似度算法。通过该算法,可以快速对库里的文章进行筛选,将高度相似的文章标记,降低用户多次浏览到相同内容的文章的可能。本文还开发了一套在线文章阅读系统,应用了这种文本相似度算法。系统基于浏览器/服务器模型,后台基于Java语言,使用了比较流行的SSM框架,开发环境是Eclipse。前台基于Html+Vue.js框架,开发环境是Node.js+Microsoft Visual Studio Code。该系统能够实现阅读文章,用户登录,用户注册,阅读历史,信息更改的需求。
Text Classification Based on Graph Convolutional Neural Network with Intimacy Matrix and Text Linking
这是一篇关于文本分类,GCN,亲密矩阵,文本相似度的论文, 主要内容为随着互联网技术的高速发展,基于互联网技术的应用在人们的日常生活中得到了广泛应用,大量的数据随着这些应用的使用而产生,在这些数据中有相当一部分是以文本方式存在的。又由于现在信息传递的速度非常快,这使得人们每天都会面对大量的文本信息。人们在处理这些信息时会出现力不从心的现象。人们为了能够快速的得到对自己有用的文本信息并且能够快速的利用这些文本信息就必须对这些文本信息进行处理。而文本分类就是对文本信息处理时最重要的一步。因为不同的文本信息可能拥有不同的处理方式,所以只有准确的对文本进行分类,才能够高效的对文本进行处理。文本分类在现实生活中具有很重要的意义。对于个人来讲文本分类可以使人们更快的找到或者利用对自己有用的文本信息。例如,在信息发达的今天,很多人在办公中都会使用电子邮箱,但是电子邮箱中收到的可能不是你想要的电子邮件,还会存在一些垃圾邮件比如诈骗邮件,木马邮件以及广告邮件。为了避免用户淹没在垃圾邮件的汪洋里,许多邮件系统都会使用文本分类技术帮助电子邮箱使用者过滤垃圾邮件。在现实生活中文本分类还有如下几个方面的应用。根据主题对新闻进行分类,可以通过文章中所讲述的内容或者结合着文章的标题来对新闻文章进行主题类别的划分。例如娱乐新闻,财经新闻,政治军事新闻等类别;情感分析,将文本分为正面和负面两类或者多个类别,一般应用于对商品和服务的评论上面,比如对淘宝商品或者某一电影的评论。但是最重要的应该是作为其他自然语言处理系统的一部分,比如智能问答系统和推荐系统等。文本分类自上一世纪六十年代出现至今已经经历了许多年,在最初时,文本分类主要是基于知识工程的分类,但是该方法有很多缺点,第一必须要由需要分类领域的专家来手工定义分类的规则,这种分类的精确度低,并且费时费力。但是随着机器学习的崛起,文本分类开始转变为基于机器学习和统计方法的分类。这种分类需要将已标记的数据作为输入来训练分类器,然后使用建立好的分类器对未还没有完成分类的文本进行分类。这种方法与之前的方法相比不需要领域的专家制定规则,准确度有一定提高并且可以适用于多个领域。但是在这个时期,另一个问题又出现了,那就是需要人工提取特征,特征的提取对分类的结果有很大的影响。近年来随着深度学习的发展,基于深度学习的文本分类方法开始兴起。例如Facebook工程师Joulin等提出的FastText和Kim提出的Text CNN等方法,都在文本分类上取得了不错的结果。近些年,伴随着图神经网络的兴起,越来越多的人开始尝试在图神经网络上做文本分类。例如Kipf和Yao等都在图神经网络上做了文本分类的研究,同样也取得了不错的结果。但是这些方法中存在如下问题:1.文本连接问题。这些文本分类算法都是将文本当作一个独立的个体,从而忽略了文本与文本之间的关系。而在一些情况下文本与文本之间的信息在分类的过程中具有很重要的作用,例如前文提到的论文分类和网页分类。在进行论文分类和网页分类时,文本之间的联系包含着非常重要的信息,对分类结果起到至关重要的作用。比如在进行论文分类的时候,论文之间的引用关系就非常重要,因为论文引用和被引用的论文往往和论文有着同样的分类。如果正确的使用该关系对论文进行分类,那么分类结果准确度将会有一个重大改善。2.图结构稀疏度问题。在以上基于图神经网络的文本分类中,所建立的图模型包含着许多边的。而这些边对节点不一定都起到正确的作用。这些边可能会给节点带来错误的信息或者无用的信息,并且随着卷积层数的增加。这些边加剧了拉普拉斯平滑的产生,最终使所用顶点都是不可区分的。为了解决上述问题,文本提出了基于带有亲密矩阵和文本连接的图卷积神经网络(GCN-BIM+BT)的文本分类方法。该方法主要做了如下两个方面的改进:1.在文本与文本之间关系方面。与已有的图卷积神经网络模型不同的是,本文中提出的模型在构建图结构的时候,建立了文本与文本之间的联系。使得文本节点可以从别的文本节点中学到信息。本文中是根据文本相似度来建立文本与文本之间联系。首先对建立一个大型语料库,并对其中的单词进行编码,本文使用Word2Vec将单词转换成向量。紧接着使用TF算法总结各个文本的词频,结合之前得出的单词向量将文本转换成对应的文本向量。最后计算文本间的余弦角度,当余弦角度大于某一直时就建立两个文本之间的边,即在图架构的邻接矩阵对应的位置置1.2.在图稀疏度方面。本文提出了一种过滤方法,将会过滤掉和顶点关系不亲密的边,保留和顶点关系亲密的边。而是否保留的依据是根据亲密度矩阵。本文中所使用的亲密度矩阵是根据PageRank推到出来。PageRank算法在深度学习领域有着重要应用,尤其是在推荐系统中。根据PageRank算法可以得出从顶点A到达顶点B的概率。同理这种概率我们可以看作成亲密度,即顶点A与顶点B的亲密度。所以我们可以根据亲密度矩阵来过滤对两个顶点都不重要的边,从而使得图卷积神经网络在训练的过程中收到的干扰降低,并且随着卷积层数量的增加,拉普拉斯平滑得到一定程度的缓解。为了验证上述两个方向的改进的有效性,本文将GCN-BIM+BT模型拆解为三种模型分别进行相应的实验,这三种模型分别是具有亲密度矩阵的图卷积神经网络(GCN-BIM),建立文本间连接的图卷积神经网络(GCN-BBT)和GCN-BIM+BT。本文所使用的数据集有引文网络数据集:Cora数据集,CiteSeer数据集和PubMed数据集,和一般文本分类数据集:R52数据集,R8数据集,20NG数据集,OH数据集和MR数据集。和本文实验数据进行对比的基准实验都是来自以往文本分类模型,且对比数据也都来自与对应的论文。首先本文现在引文网络上对GCN-BBT进行了文本分类的测试,发现该模型在绝大部分数据集上有着很不错的表现,表明了在基于图神经网络的文本分类中使用文本间连接是有必要的,也是重要的。紧接着有在MR等一般文本分类数据集上对前面三种模型都做了文本分类的实验。发现了具有过滤层的模型比没有过滤层的模型分类结果要好一些。最后又测试了卷积层层数和标签率对文本分类的结果的影响。发现标签率在文本分类中非常重要。在测试图卷积层数对文本分类的影响时发现没有过滤层的模型在随着卷积层数的增加准确度急剧下滑,而有过滤层的模型在随着卷积层的增加时,准确度下滑的相对满了一些。这表明过滤层在对抗拉普拉斯平滑时起到了一定效果。总的来说,通过实验,本文提出的基于带有亲密度矩阵和建立文本间联系的图卷积神经网络的文本分类模型有着不错的表现。但是在对抗拉普拉斯平滑上效果还是不理想。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://bishedaima.com/lunwen/47506.html