基于K-core的图分解TextRank关键词提取技术的研究与应用
这是一篇关于关键词,TextRank,K-Core,G1赋权法,图分解,电商评论数据的论文, 主要内容为根据第48次《中国互联网络发展状况统计报告》,仅2021年上半年,全国网上零售额已达到61133亿元,同比增长了23.2%。在这组数字的背后,不仅是电商行业的繁荣发展,电商相关领域的数据信息量也在爆发式的增长,而电商网站中的用户评论数据就是其中之一。为了能够帮助拥有大量评论信息的电商卖家节省时间发现商品评论中的关键词,以提升自家商品在同行中的竞争力,形成正向反馈,本文以电商评论数据为研究对象,使用构建词图的方法,再结合图网络中节点的属性,配合传统的关键词提取算法,以此来开展研究实验。其主要的研究内容如下:提出基于K-Core的Text Rank关键词提取算法。围绕传统Text Rank算法中每个节点初始权值都为1且在提取关键词的过程中过度依赖字词的出现频率这两个不足之处,在本文算法中使用共现关系构建词图,使用K-Core算法进行剪枝操作分解出词图中的核心和非核心子图,以此来得到重要的节点属性特征。之后,根据选取和定义的6个特征,得到每个节点对应特征的评分,最后根据G1赋权法得到每个特征所占的权重,以此来综合计算每个节点的初始权值。这样一来,既考虑到了节点在图中的属性特征,也使每个节点得到了不同的初始权值,平衡了传统Text Rank算法中边权值(频率)的影响。使用本文算法在自采数据集上做了多组实验,包括在改变参数情况下的自身对照实验以及对比传统的Text Rank算法和TF-IDF算法的实验,结果表明当窗口大小设置为4,提取的关键词数量设置为22时,本文算法的效果要好于传统的Text Rank算法和TF-IDF算法,达到了较好的效果。同时,严格按照软件开发流程设计和实现了基于本文算法的关键词提取系统,方便电商卖家使用。开发过程中主要使用了前后端分离的思想,前端使用Vue框架,后端使用Django框架,前后端通信则使用RESTful风格的接口,在数据的采集功能中也集成了Scrapy爬虫框架,最后则对整个系统进行了测试。该系统可以由用户选择电商评论数据上传方式,并可以对文本数据进行分布式保存和关键词提取、显示,可以有效的提高电商卖家的阅读效率,体现出了本文算法的应用价值。
基于语义聚类和加权TextRank的新闻关键词提取方法的研究与实现
这是一篇关于关键词,深度学习,词向量模型,TextRank,新闻热点的论文, 主要内容为随着科技的迅猛发展,信息传播和流通的速度越来越快,每天都有无数的时事新闻在互联网中快速传播,网络上的资源越来越丰富,也越来越繁杂。在时间和精力都有限的情况下,人们难以准确地从海量的数据中把握目标内容。因此迫切需要一种手段,用以快速阅览新闻概要并掌握当下热点,从而省去筛选新闻和通篇阅读的麻烦,这不仅有利于读者,也是有助于新闻工作。作为对一篇文章的主题进行简要概括的一系列词语,关键词不仅对于表述文章的中心主旨有非常实用的意义,还能够帮助我们快速理解文本的中心思想。所以,需要一种有效的关键词分析技术来获取有效信息。目前已有一些成熟的关键词提取算法,但都存在着准确率较低、对于词的特征考虑不全面等弊端。故本文在TextRank算法思想的基础上,使用最新的深度学习模型来突出表现词的语义特征,研究出了一种高效且准确的关键词提取方法,基于此算法设计并实现了一个基于关键词分析的新闻推送系统。此系统包含了新闻获取、文本处理、关键词提取、热点分析和新闻推送等主要功能,在研究中,本文在系统的设计与实现中所做的主要工作如下:(1)研究了网络爬虫和获取新闻网站实时新闻的方法,在此基础上实现了系统中用于得到数据来源的模块。这一模块能够定时启动,获取各大主流新闻网站中最新新闻,并进行准确网页解析,从中提取出新闻数据并存储,给系统中后续的处理提供了有效的数据来源。(2)研究了一种可行的关键词提取方法,并将其作为系统的核心功能。在工作中,首先研究了 TextRank和TF-IDF等已有算法。其中TextRank源自于PageRank算法,基本原理是利用词图模型来传播词的权重,对最终权重排序后得到关键词。TextRank算法中关键词权重传播的倾向性只在于词的出现频率,为了改善这一情况并提高算法效果,本文提出了基于语义和统计特征的TextRank关键词提取算法。首先研究并比较了各种词向量模型,选取了深度学习模型生成的词向量进行k-means聚类来表示语义的聚类特征,并利用词的TF-IDF值来表示候选词语相对于文本库的统计特征,最后再结合上词在文本中的位置特征,构建出一个新的TextRank权重转移概率矩阵。最后利用这一矩阵进行词图的迭代计算和关键词的提取。经过实验仿真,相比于传统的TextRank算法和TF-IDF算法,本文提出的算法在准确率、召回率和F1值上均有较为明显的提高。从而本算法可以用于系统中关键词提取的核心功能。(3)在前面工作的基础上,本文利用Spring Boot框架实现了基于关键词分析的新闻推荐系统。这一系统提供了文本处理和关键词提取等基本特色功能,它不仅能展示最新的新闻及其关键词,还能够根据近期新闻关键词的频率分析出新闻热点,并根据这些新闻热点有针对性的给用户推送新闻,满足以词为出发点来筛选相关或相似内容新闻的需求。
基于K-core的图分解TextRank关键词提取技术的研究与应用
这是一篇关于关键词,TextRank,K-Core,G1赋权法,图分解,电商评论数据的论文, 主要内容为根据第48次《中国互联网络发展状况统计报告》,仅2021年上半年,全国网上零售额已达到61133亿元,同比增长了23.2%。在这组数字的背后,不仅是电商行业的繁荣发展,电商相关领域的数据信息量也在爆发式的增长,而电商网站中的用户评论数据就是其中之一。为了能够帮助拥有大量评论信息的电商卖家节省时间发现商品评论中的关键词,以提升自家商品在同行中的竞争力,形成正向反馈,本文以电商评论数据为研究对象,使用构建词图的方法,再结合图网络中节点的属性,配合传统的关键词提取算法,以此来开展研究实验。其主要的研究内容如下:提出基于K-Core的Text Rank关键词提取算法。围绕传统Text Rank算法中每个节点初始权值都为1且在提取关键词的过程中过度依赖字词的出现频率这两个不足之处,在本文算法中使用共现关系构建词图,使用K-Core算法进行剪枝操作分解出词图中的核心和非核心子图,以此来得到重要的节点属性特征。之后,根据选取和定义的6个特征,得到每个节点对应特征的评分,最后根据G1赋权法得到每个特征所占的权重,以此来综合计算每个节点的初始权值。这样一来,既考虑到了节点在图中的属性特征,也使每个节点得到了不同的初始权值,平衡了传统Text Rank算法中边权值(频率)的影响。使用本文算法在自采数据集上做了多组实验,包括在改变参数情况下的自身对照实验以及对比传统的Text Rank算法和TF-IDF算法的实验,结果表明当窗口大小设置为4,提取的关键词数量设置为22时,本文算法的效果要好于传统的Text Rank算法和TF-IDF算法,达到了较好的效果。同时,严格按照软件开发流程设计和实现了基于本文算法的关键词提取系统,方便电商卖家使用。开发过程中主要使用了前后端分离的思想,前端使用Vue框架,后端使用Django框架,前后端通信则使用RESTful风格的接口,在数据的采集功能中也集成了Scrapy爬虫框架,最后则对整个系统进行了测试。该系统可以由用户选择电商评论数据上传方式,并可以对文本数据进行分布式保存和关键词提取、显示,可以有效的提高电商卖家的阅读效率,体现出了本文算法的应用价值。
基于语义聚类和加权TextRank的新闻关键词提取方法的研究与实现
这是一篇关于关键词,深度学习,词向量模型,TextRank,新闻热点的论文, 主要内容为随着科技的迅猛发展,信息传播和流通的速度越来越快,每天都有无数的时事新闻在互联网中快速传播,网络上的资源越来越丰富,也越来越繁杂。在时间和精力都有限的情况下,人们难以准确地从海量的数据中把握目标内容。因此迫切需要一种手段,用以快速阅览新闻概要并掌握当下热点,从而省去筛选新闻和通篇阅读的麻烦,这不仅有利于读者,也是有助于新闻工作。作为对一篇文章的主题进行简要概括的一系列词语,关键词不仅对于表述文章的中心主旨有非常实用的意义,还能够帮助我们快速理解文本的中心思想。所以,需要一种有效的关键词分析技术来获取有效信息。目前已有一些成熟的关键词提取算法,但都存在着准确率较低、对于词的特征考虑不全面等弊端。故本文在TextRank算法思想的基础上,使用最新的深度学习模型来突出表现词的语义特征,研究出了一种高效且准确的关键词提取方法,基于此算法设计并实现了一个基于关键词分析的新闻推送系统。此系统包含了新闻获取、文本处理、关键词提取、热点分析和新闻推送等主要功能,在研究中,本文在系统的设计与实现中所做的主要工作如下:(1)研究了网络爬虫和获取新闻网站实时新闻的方法,在此基础上实现了系统中用于得到数据来源的模块。这一模块能够定时启动,获取各大主流新闻网站中最新新闻,并进行准确网页解析,从中提取出新闻数据并存储,给系统中后续的处理提供了有效的数据来源。(2)研究了一种可行的关键词提取方法,并将其作为系统的核心功能。在工作中,首先研究了 TextRank和TF-IDF等已有算法。其中TextRank源自于PageRank算法,基本原理是利用词图模型来传播词的权重,对最终权重排序后得到关键词。TextRank算法中关键词权重传播的倾向性只在于词的出现频率,为了改善这一情况并提高算法效果,本文提出了基于语义和统计特征的TextRank关键词提取算法。首先研究并比较了各种词向量模型,选取了深度学习模型生成的词向量进行k-means聚类来表示语义的聚类特征,并利用词的TF-IDF值来表示候选词语相对于文本库的统计特征,最后再结合上词在文本中的位置特征,构建出一个新的TextRank权重转移概率矩阵。最后利用这一矩阵进行词图的迭代计算和关键词的提取。经过实验仿真,相比于传统的TextRank算法和TF-IDF算法,本文提出的算法在准确率、召回率和F1值上均有较为明显的提高。从而本算法可以用于系统中关键词提取的核心功能。(3)在前面工作的基础上,本文利用Spring Boot框架实现了基于关键词分析的新闻推荐系统。这一系统提供了文本处理和关键词提取等基本特色功能,它不仅能展示最新的新闻及其关键词,还能够根据近期新闻关键词的频率分析出新闻热点,并根据这些新闻热点有针对性的给用户推送新闻,满足以词为出发点来筛选相关或相似内容新闻的需求。
基于语义聚类和加权TextRank的新闻关键词提取方法的研究与实现
这是一篇关于关键词,深度学习,词向量模型,TextRank,新闻热点的论文, 主要内容为随着科技的迅猛发展,信息传播和流通的速度越来越快,每天都有无数的时事新闻在互联网中快速传播,网络上的资源越来越丰富,也越来越繁杂。在时间和精力都有限的情况下,人们难以准确地从海量的数据中把握目标内容。因此迫切需要一种手段,用以快速阅览新闻概要并掌握当下热点,从而省去筛选新闻和通篇阅读的麻烦,这不仅有利于读者,也是有助于新闻工作。作为对一篇文章的主题进行简要概括的一系列词语,关键词不仅对于表述文章的中心主旨有非常实用的意义,还能够帮助我们快速理解文本的中心思想。所以,需要一种有效的关键词分析技术来获取有效信息。目前已有一些成熟的关键词提取算法,但都存在着准确率较低、对于词的特征考虑不全面等弊端。故本文在TextRank算法思想的基础上,使用最新的深度学习模型来突出表现词的语义特征,研究出了一种高效且准确的关键词提取方法,基于此算法设计并实现了一个基于关键词分析的新闻推送系统。此系统包含了新闻获取、文本处理、关键词提取、热点分析和新闻推送等主要功能,在研究中,本文在系统的设计与实现中所做的主要工作如下:(1)研究了网络爬虫和获取新闻网站实时新闻的方法,在此基础上实现了系统中用于得到数据来源的模块。这一模块能够定时启动,获取各大主流新闻网站中最新新闻,并进行准确网页解析,从中提取出新闻数据并存储,给系统中后续的处理提供了有效的数据来源。(2)研究了一种可行的关键词提取方法,并将其作为系统的核心功能。在工作中,首先研究了 TextRank和TF-IDF等已有算法。其中TextRank源自于PageRank算法,基本原理是利用词图模型来传播词的权重,对最终权重排序后得到关键词。TextRank算法中关键词权重传播的倾向性只在于词的出现频率,为了改善这一情况并提高算法效果,本文提出了基于语义和统计特征的TextRank关键词提取算法。首先研究并比较了各种词向量模型,选取了深度学习模型生成的词向量进行k-means聚类来表示语义的聚类特征,并利用词的TF-IDF值来表示候选词语相对于文本库的统计特征,最后再结合上词在文本中的位置特征,构建出一个新的TextRank权重转移概率矩阵。最后利用这一矩阵进行词图的迭代计算和关键词的提取。经过实验仿真,相比于传统的TextRank算法和TF-IDF算法,本文提出的算法在准确率、召回率和F1值上均有较为明显的提高。从而本算法可以用于系统中关键词提取的核心功能。(3)在前面工作的基础上,本文利用Spring Boot框架实现了基于关键词分析的新闻推荐系统。这一系统提供了文本处理和关键词提取等基本特色功能,它不仅能展示最新的新闻及其关键词,还能够根据近期新闻关键词的频率分析出新闻热点,并根据这些新闻热点有针对性的给用户推送新闻,满足以词为出发点来筛选相关或相似内容新闻的需求。
基于知识图谱与Bert的人岗匹配模型研究
这是一篇关于知识图谱,BERT,人岗匹配,长短期记忆神经网络,注意力机制,关键词的论文, 主要内容为目前,求职和招聘双方仍经历着由于信息不对称而带来的"逆向选择"困难,企业招聘成本仍是相对高昂,而疫情期间,精确的人岗匹配功能对线上招聘平台来说更显得尤为重要。以往人岗匹配研究主要集中在人力资源专家对关键词的判断和手工特征的构造,而由此得出人岗匹配方法往往无法充分利用岗位和简历描述的知识和技能关系,也无法充分表示文本的主旨语义信息,这将影响招聘平台推荐职位效果,也影响着求职者对求职平台推荐的岗位的信任、甚至影响求职者的招聘选择。因此,为解决以上迫切的问题,实现精确的人岗匹配模型正在成为当前的研究热点之一。本文结合实际招聘产生的数据,依据下游任务需求和实际招聘业务分析,构建供求职端的知识图谱,并模拟实际招聘关注过程,构建基于注意力机制的人岗匹配模型。其中,采用知识表示的方法,将供求职知识图谱用低维嵌入空间表示,使得文本语义信息结合图知识作为下游人岗匹配模型的输入实现模型充分学习,从而实现人与岗位信息的匹配程度预测,并在大量的实验中证明了模型设计理念的优异。本文的主要研究内容如下:1、为融合挖掘供求职双方的关系信息,实现了基于电子简历和电子招聘要求文本数据搭建供求职知识图谱,其包括实现数据的处理、供求职图谱的概念层设计、信息抽取和知识匹配等,此外,还介绍了知识抽取阶段如何对数据进行标注及模型选取。2、实现了将现有电子简历和电子招聘要求文本数据的三元组知识存储在Neo4j图数据库,并进行了可视化。其中,包括针对简历和招聘要求的数据进行统计分析,并从可视化知识图中操作图数据库,进行知识的检索。3、为模拟实际招聘的关注过程,提出基于预训练BERT模型及注意力机制搭建的人岗匹配模型。基于BERT编码的方式,将简历及岗位文本信息通过编码后,结合嵌入的知识向量共同输入到人岗匹配模型,以实现模型搭建在BERT的输出下游中。其中,本文融合推荐系统方法,提出基于注意力机制算法来增强岗位与简历之间的关注特征,并融入历史最优简历匹配对,让模型充分学习到候选求职者特征与历史特征之间的增强信息,以增强模型性能。实验也表明与现有人岗匹配方法比较,该方法具有更为突出的评价性能,也为人岗匹配研究方法的提供一个新思路。
基于语义聚类和加权TextRank的新闻关键词提取方法的研究与实现
这是一篇关于关键词,深度学习,词向量模型,TextRank,新闻热点的论文, 主要内容为随着科技的迅猛发展,信息传播和流通的速度越来越快,每天都有无数的时事新闻在互联网中快速传播,网络上的资源越来越丰富,也越来越繁杂。在时间和精力都有限的情况下,人们难以准确地从海量的数据中把握目标内容。因此迫切需要一种手段,用以快速阅览新闻概要并掌握当下热点,从而省去筛选新闻和通篇阅读的麻烦,这不仅有利于读者,也是有助于新闻工作。作为对一篇文章的主题进行简要概括的一系列词语,关键词不仅对于表述文章的中心主旨有非常实用的意义,还能够帮助我们快速理解文本的中心思想。所以,需要一种有效的关键词分析技术来获取有效信息。目前已有一些成熟的关键词提取算法,但都存在着准确率较低、对于词的特征考虑不全面等弊端。故本文在TextRank算法思想的基础上,使用最新的深度学习模型来突出表现词的语义特征,研究出了一种高效且准确的关键词提取方法,基于此算法设计并实现了一个基于关键词分析的新闻推送系统。此系统包含了新闻获取、文本处理、关键词提取、热点分析和新闻推送等主要功能,在研究中,本文在系统的设计与实现中所做的主要工作如下:(1)研究了网络爬虫和获取新闻网站实时新闻的方法,在此基础上实现了系统中用于得到数据来源的模块。这一模块能够定时启动,获取各大主流新闻网站中最新新闻,并进行准确网页解析,从中提取出新闻数据并存储,给系统中后续的处理提供了有效的数据来源。(2)研究了一种可行的关键词提取方法,并将其作为系统的核心功能。在工作中,首先研究了 TextRank和TF-IDF等已有算法。其中TextRank源自于PageRank算法,基本原理是利用词图模型来传播词的权重,对最终权重排序后得到关键词。TextRank算法中关键词权重传播的倾向性只在于词的出现频率,为了改善这一情况并提高算法效果,本文提出了基于语义和统计特征的TextRank关键词提取算法。首先研究并比较了各种词向量模型,选取了深度学习模型生成的词向量进行k-means聚类来表示语义的聚类特征,并利用词的TF-IDF值来表示候选词语相对于文本库的统计特征,最后再结合上词在文本中的位置特征,构建出一个新的TextRank权重转移概率矩阵。最后利用这一矩阵进行词图的迭代计算和关键词的提取。经过实验仿真,相比于传统的TextRank算法和TF-IDF算法,本文提出的算法在准确率、召回率和F1值上均有较为明显的提高。从而本算法可以用于系统中关键词提取的核心功能。(3)在前面工作的基础上,本文利用Spring Boot框架实现了基于关键词分析的新闻推荐系统。这一系统提供了文本处理和关键词提取等基本特色功能,它不仅能展示最新的新闻及其关键词,还能够根据近期新闻关键词的频率分析出新闻热点,并根据这些新闻热点有针对性的给用户推送新闻,满足以词为出发点来筛选相关或相似内容新闻的需求。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://bishedaima.com/lunwen/52579.html