基于双向推荐的研招预推免系统的研究与实现
这是一篇关于研招系统,双向推荐,关键词提取,TextRank,多特征融合的论文, 主要内容为随着双一流建设的推进,我国研究生报考人数逐年攀升,研究生招生工作的压力随之激增,而我国研究生招生正处于由大规模向高质量迈进的关键时刻。这一形势使得国内重点双一流高校更加关注招生工作效率和招生质量,随着招生流程的规范化,导师与学生间的信息不对称问题成为研招信息化中重点研究的问题之一。本文以硕士推免招生类型为研究对象,研究该招生类型的流程规范化、信息化,并以导师与申请学生之间的双向推荐为研究重点,应用科学的方法实现招生导师与申请学生之间在研究方向与兴趣点上的双向匹配。论文基于现有的研究成果,结合研究对象特点,提出基于双向推荐的研招预推免系统框架。首先,本文通过爬虫技术获取导师在校期间发表的学术论文信息作为外部补充文档,通过句法分析和词性标注技术,建立领域内关键词专用词典,为后续关键词提取奠定基础。其次,为提高关键词提取的准确度,通过改进的基于多特征融合的TextRank算法,实现导师和申请学生文本数据的关键词提取。通过建立特征向量并对其进行相似度计算,生成推荐列表。最后,对本文提出的改进算法进行测试实验,实验结果显示,与传统算法相比,改进后的关键词提取算法F值平均提高13.19%,大幅提高了推荐精度,为导师和申请学生的合理选择提供有效的技术支持。以此研究为基础,设计并实现了研招预推免系统,将双向推荐算法应用于该系统中,经系统功能和性能测试表明研究实现的系统符合推免招生应用场景的功能与性能要求,达到了研究与设计的目标。
知识引导的短文本关键词抽取技术研究
这是一篇关于关键词抽取,TextRank,知识图谱的论文, 主要内容为关键词是指能够概括文档主旨的词语,可以让读者快速地了解文档的主题内容。目前主流的关键词抽取方法仅仅考虑词语在文档中的统计信息,倾向于赋予高频词语更高权重。或者简单地基于词嵌入,计算词语嵌入和文档嵌入的距离,距离越近的词语相似度越高,被识别为关键词的概率越大。但是这些方法的性能容易受到文本长度的限制,没有利用到词语所涉及的领域、属性和关联等外部知识,无法构建更有效的短文本关键词抽取模型。针对现有的关键词抽取模型普遍没有利用到外部知识的现状,本文做了以下研究:(1)提出一种融合知识的论文摘要关键词抽取方法。该方法首先基于知网和词林知识,利用知识图谱嵌入模型训练得到词语在知识库中的向量表示。在传统关键词抽取方法Text Rank的基础上,利用词语在知识图谱中的向量表示计算词语之间的语义相似度,构建文档的语义词图,生成语义矩阵。再结合基于词语之间共现关系生成的共现矩阵,生成新的概率转移矩阵。使用新得到的概率转移矩阵进行迭代计算,得到候选词的最终权重,根据候选词的权重大小进行关键词抽取。(2)提出一种以知识为引导的结合词语全局相似度和局部重要性的短文本关键词抽取方法。该方法首先通过预训练语言模型获取词语的向量表示,将该向量表示与其在知识图谱中的表示进行融合,以达到增强其语义表达的目的。计算词语和整篇文档的语义相似度,得到词语的全局相似度。然后基于文档构建一个图,候选词作为顶点,顶点之间有边相连,边的权重为词语之间的语义相似度。再结合词语的位置权重,获取词语的局部重要性。综合考虑候选词的全局相似度和局部重要性给候选词权重进行打分,分数排序靠前的候选词即为关键词。本文在大量中文论文摘要和Sem Eval2010数据集上进行了实验,第一种方法相比Text Rank方法性能提升6.3%,第二种方法相比性能最好的Topic Rank提升9.9%,证明了在短文本关键词抽取方法中融入外部知识的有效性。
基于K-core的图分解TextRank关键词提取技术的研究与应用
这是一篇关于关键词,TextRank,K-Core,G1赋权法,图分解,电商评论数据的论文, 主要内容为根据第48次《中国互联网络发展状况统计报告》,仅2021年上半年,全国网上零售额已达到61133亿元,同比增长了23.2%。在这组数字的背后,不仅是电商行业的繁荣发展,电商相关领域的数据信息量也在爆发式的增长,而电商网站中的用户评论数据就是其中之一。为了能够帮助拥有大量评论信息的电商卖家节省时间发现商品评论中的关键词,以提升自家商品在同行中的竞争力,形成正向反馈,本文以电商评论数据为研究对象,使用构建词图的方法,再结合图网络中节点的属性,配合传统的关键词提取算法,以此来开展研究实验。其主要的研究内容如下:提出基于K-Core的Text Rank关键词提取算法。围绕传统Text Rank算法中每个节点初始权值都为1且在提取关键词的过程中过度依赖字词的出现频率这两个不足之处,在本文算法中使用共现关系构建词图,使用K-Core算法进行剪枝操作分解出词图中的核心和非核心子图,以此来得到重要的节点属性特征。之后,根据选取和定义的6个特征,得到每个节点对应特征的评分,最后根据G1赋权法得到每个特征所占的权重,以此来综合计算每个节点的初始权值。这样一来,既考虑到了节点在图中的属性特征,也使每个节点得到了不同的初始权值,平衡了传统Text Rank算法中边权值(频率)的影响。使用本文算法在自采数据集上做了多组实验,包括在改变参数情况下的自身对照实验以及对比传统的Text Rank算法和TF-IDF算法的实验,结果表明当窗口大小设置为4,提取的关键词数量设置为22时,本文算法的效果要好于传统的Text Rank算法和TF-IDF算法,达到了较好的效果。同时,严格按照软件开发流程设计和实现了基于本文算法的关键词提取系统,方便电商卖家使用。开发过程中主要使用了前后端分离的思想,前端使用Vue框架,后端使用Django框架,前后端通信则使用RESTful风格的接口,在数据的采集功能中也集成了Scrapy爬虫框架,最后则对整个系统进行了测试。该系统可以由用户选择电商评论数据上传方式,并可以对文本数据进行分布式保存和关键词提取、显示,可以有效的提高电商卖家的阅读效率,体现出了本文算法的应用价值。
提取专利网页关键信息的Web系统研究
这是一篇关于专利查看,算法提取,Readability,TextRank,Flask的论文, 主要内容为随着互联网向着高速化、智能化、全球化的方向不断发展,我国的上网人数也在不断增加。由CNNIC(中国互联网络中心)发布的数据得知,自1997年到2018年,我国的上网人数从62万增长至8.29亿,网站的数量也由最初的1500个激增到523万个。越来越多的人们通过网页进行社会交流、创作分享和知识获取,而互联网应用也已经与人类的工作、生活等社会活动息息相关。互联网应用具有辐射面广、交互性强的特点,可以与信息的接受者进行实时的交互式沟通,为各领域的工作人员提供了极大的方便。因而很多带有行业背景的用户和公司为提升效率,提出了一些关于网页检索的应用需求,主要包括:减少人工检索的工作量,缩短人工检索的时间,抽取并直观展示目标网页的关键信息。本文通过对网页正文抽取技术,文本关键词与摘要抽取技术的相关原理进行研究,并结合对Web框架的学习,设计并搭建了提取专利网页著录信息,专利关键词和摘要的专利型子系统,以及提取普通网页关键词、摘要等关键信息的通用型子系统。本文的工作主要分为三个部分:第一部分是网页抽取相关技术的研究,包括网页正文抽取的方法,文本关键词、摘要抽取的方法。第二部分是系统关键技术的实现,包括基于Readability技术的网页正文提取,基于改进的TextRank算法的文本关键词和摘要提取。第三部分是提取专利网页关键信息的Web系统的设计与实现,包括相关专利信息获取,专利关键信息抽取的设计和实现。平台使用Flask搭建后端服务模块,通过Vue框架、Jquery等实现Web前端交互,采用Mysql关系型数据库实现专利数据及用户信息的存储,提供专利初选,网页关键信息抽取的服务。目前,课题项目已部署在实验室服务器上,可以用来帮助专利调研人员进行专利查看和筛选,还可以实时提供在线网页正文、文档/文本摘要生成服务。实践证明本文设计与实现的提取专利网页关键信息的Web系统有良好的应用前景。
基于自然语言处理的能源电池领域的知识图谱构建
这是一篇关于知识图谱,TextRank,Word2vec,句法分析,规则的论文, 主要内容为随着大数据时代的到来,信息剧增,从海量文本中迅速捕获有价值的知识是目前亟待解决的问题,知识图谱就此问世。虽在其他领域,已经成功构建了很多知识图谱库,但针对专业性领域的知识图谱构建还处于起步时期,尤其是能源电池领域,这严重阻碍了该领域知识的应用和共享。因此,本文以该领域50篇科技论文作为研究对象构建知识图谱,研究主要集中在四个方面,即词性标注、实体抽取、关系抽取以及图谱构建。词性标注。首先,依据论文和中英文的结构特点,提取文本中具有特殊特点的实体,经去重、排序,补充到自定义词典;然后,运用HanLP的短语提取功能提取所有可能的短语,经源文本匹配,保留匹配度达到2及以上的短语,经实体规则的筛选,将最终剩下的实体补充到自定义词典中;最后,运用更新的自定义词典,将HanLP标注结果与人工标注的结果作对比,总结出该领域的通用规则,将运用通用规则提取的实体经人工筛选后补充到自定义词典,完成基于自定义词典的词性标注。实体抽取,本文主要是将图模型引入实体抽取,提出了一种基于改进TextRank算法的抽取方法。分别将基于节点长度和节点信息量的节点综合特征值和基于滑动窗口和互信息的边权值共同加权于传统的TextRank算法中,创建新的评分函数,通过不断迭代、设置阈值确定最终的实体抽取结果。实体关系。本文将研究分为分类关系和非分类关系。首先,改进了“is a”模型使其适用于中文的实体关系抽取,即,利用“是一”模型直接提取出文本的上下位关系,即分类关系;其次,基于共现关系抽取所有的实体对,在所有共现实体对的基础上,利用word2vec模型计算实体间的语义关系;再次,利用依存句法分析和规则获得实体间的并列关系、主宾关系、同义关系和聚集关系;最后,量化关系,经降序排列以及阈值分析,得到最终的实体关系。构建图谱。本文根据已经提取的实体以及实体间的关系,运用Pajek软件将知识图谱可视化展示。由于科学研究的不断发展,科技论文的产量与日俱增,因此,绘制知识图谱并不是一个终结性的工作,随着专业信息的不断增加,知识图谱结构也要不断更新,建立越发完善的知识体系。核心任务包括:语料库构建、分词标注、信息量计算、词长统计、TextRank、实体抽取、word2vec、句法分析、关系模型抽取、实体关系抽取、知识图谱构建等操作。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码货栈 ,原文地址:https://bishedaima.com/lunwen/47950.html