基于知识图谱的聚类算法研究及其在文本聚类中的应用
这是一篇关于文本聚类,K-Means算法,知识图谱的论文, 主要内容为通信工程和计算机技术的迅速发展将人类社会带入到了信息时代,数据库中存储的数据量也急剧增大,如何在海量数据中分析和获取有价值的知识成为人们日益关注的问题。文本聚类分析是信息数据挖掘的一个重要研究方向,可以直观地反映数据间的分布特点,更好地发现数据集中内在的类别特性。K-Means算法作为聚类分析算法中最为普遍应用的算法之一,尽管时间复杂度较低且易于实现,但在处理具有高维性和稀疏性的数据时,容易出现局部最优的情况。本文介绍了文本聚类算法的基本理论与相关技术,对于K-Means算法本身具有的部分局限性,提出了改进的聚类算法。在介绍聚类的几种常用的算法思想和文本聚类的相关技术的基础上,重点阐释了K-Means聚类算法,并分析了该算法具有的优缺点。针对传统K-Means算法对噪声数据敏感且随机选择初始聚类中心导致可能无法得到有效的聚类结果等缺点,提出了基于知识图谱的改进K-Means聚类算法。知识图谱是构建在当前Web基础之上的一层覆盖网络,借助其图的表示结构,考虑文档词条间的语义关系,可以在Web网页上建立起基于概念的一种链接关系。通过改进类与类之间的相似度度量标准,构建知识图谱中的“语义网络”,从而优化初始聚类中心的选择方式与词条向量间的距离计算方法,降低孤立点对聚类结果的影响。改进的K-Means算法中初始簇类中心的选择策略可以减少该算法陷入局部最优解的可能性并充分考虑到文本内容对文本聚类的贡献度,提高算法性能与效果。论文采用了常用的评价指标来对不同方法的实验结果进行比较,其中,评价标准包括兰德指数、轮廓系数、互信息与V-measure标准等。通过对比实验表明改进后的算法能够得出聚类质量较高且波动幅度较小的聚类结果。同时,针对本文的研究做出分析与总结,提出了在实验过程中未能深入研究到的相关问题,并展望了文本聚类挖掘未来的研究方向。
基于爬虫与数据挖掘的电商页面信息分析
这是一篇关于电商,爬虫,数据挖掘,文本聚类,多元回归分析,K-Means算法的论文, 主要内容为随着互联网产业的迅猛发展,计算机相关技术的跳跃式演变以及行业规模的不断扩大创新.电子商务从最初的不被信任到现在动动手指就可购物,电商平台对老百姓生活产生的影响不言而喻.2017年“双十一”这天,淘宝网单日平台交易额突破了1682亿人民币,人民的日常生活早已离不开电子商务平台.在电商平台的网络交易中,消费者可以通过浏览商品网页获取商品的各类信息,以此决定是否购买,而这些信息又可以为市场和营销带来更好的转变机会.因此,本文将结合爬虫技术与相应的数据挖掘方法对电商的网页信息进行采集与探究性分析,期望构建一套从数据提取到数据挖掘的系统性研究方法,帮助店家及消费者更好的探究需求,并为丰富电子商务市场营销策划提供参考.从消费人群来看,80、90后年龄段的消费者占比近八成多,是电子商务消费的核心主导力量,而该阶段的消费者都要经历面试及就业,因此选用西装为研究对象很具有代表性.本文通过搭建web自动化爬虫框架获取了淘宝网西装商品全部共8000多家网店的网页信息,并通过对数据信息检查选择出最适合该类数据的数据挖掘方法.最终决定使用描述性分析与回归分析、文本聚类分析相结合的研究方法,探索其潜在的数据价值,从而为飞速发展的电商产业提供系统优质的数据挖掘技术支持.本文主要工作分为六个部分:第一部分:绪论,主要阐述研究的背景、综述、研究的内容与结构安排.第二部分:数据提取与存储的方法介绍,简单阐述了需要使用的工具及其优缺点,为数据爬取奠定基础.第三部分:网页信息的处理方法,分别讲述了有关商品销售量的多元回归分析模型及对网页信息采用的“无监督学习”文本聚类方法.第四部分:K-Means算法的展开,从数据预处理、向量空间模型(VSM)、IDFTF-算法、与引用惯性权重的K-Means评价等详细记录了算法的实现流程.第五部分:实证部分,从环境配置、数据获取与存储、描述性分析、回归分析、文本聚类各环节构建一套系统的数据探究方法,最大化探索数据价值以达到研究目的.第六部分:总结与展望.为电商网页信息的数据挖掘及市场发展提供参考性建议支持.
基于知识图谱的电影推荐技术研究
这是一篇关于知识图谱,矩阵分解,文本聚类,协同过滤的论文, 主要内容为随着数据信息时代的数十年发展,互联网中的数据体量也愈加庞大,在人们检索时遇到了不同数据形式的大量数据信息所导致的信息过载问题。其中在电影领域多维度形形色色的数据信息快速增长为用户带来海量资源的同时也使得用户不能有效寻找自己感兴趣的电影。电影推荐系统凭借对冗余信息的过滤,可以为用户高效地寻找喜欢的电影,近年来受到很大关注。该系统使得用户在电影搜索时变得容易。但是传统的推荐系统在推荐性能上依然受到数据稀疏性以及冷启动的限制,主要原因是每个用户都拥有不同的兴趣爱好,因此对电影的喜好也是因人而异。系统中的用户数据较少无法获得用户数据因此不能对用户喜好做出正确预测,从而影响推荐效果。为了缓解数据稀疏性的影响,本文通过构建电影领域知识图谱,利用知识图谱计算电影间语义相似度,结合传统推荐算法实现个性化电影推荐。研究内容如下:首先介绍了电影领域知识图谱的设计与实现。翻译模型在构建知识图谱过程中具有复杂度较低且表示准确度较高等优点,因此本文采用计算量较小的翻译模型作为知识图谱表示模型。传统的翻译模型Trans E由于不能处理电影实体间的多关系,导致在推荐算法中相似度的计算准确率较低。于是本文选用改进的Trans HR模型以弥补Trans E模型在多关系表示方面的不足,提升了推荐性能。其次为了进一步提升知识图谱在电影相似度计算方面的准确性,在构建电影领域知识图谱过程中,利用文本聚类算法挖掘电影评论中关于电影的相同属性并作为类别关系嵌入知识图谱。结合K-means聚类算法提取出电影评论中实体间的隐藏关系并添加在知识图谱中,提升了知识图谱的完整度,进一步提升推荐性能。最后结合知识图谱计算电影间相似度并且融合基于用户评分矩阵的电影相似度应用于矩阵分解中,形成了一种个性化推荐方法。该方法利用了已有的知识库弥补推荐过程中因评论数据量较少导致的推荐性能下降的问题。对比实验结果表明,与传统算法相比,该算法提升了推荐召回率、准确率、RSME和MAE等指标。
基于K-Means的分布式文本聚类系统的设计与实现
这是一篇关于数据挖掘,文本聚类,K-Means,并行化,聚类分析的论文, 主要内容为随着互联网规模的不断增加,使得信息的数量激增。从大数据中提炼有价值的信息,成为当今研究的热点。其中文本数据是信息最主要的载体之一,随着企业文本数据的不断增加,员工难以快速并且准确的查询有效信息。文本数据的主题抽取和自动化归类处理可以为文本信息检索以及个性化推荐提供基础。传统的文本数据分类处理一般通过人为标注划分,需要投入较高的人力成本以及时间成本。如何高效快捷的实现海量文本数据的主题抽取和自动化归类处理,成为当前企业急需解决的问题。因此建立一套分布式文本聚类系统至关重要。本文首先对文本聚类基础理论进行分析,结合文本聚类算法、并行编程模型以及文本聚类技术设计并实现了一套分布式文本聚类系统。该系统针对企业文本数据不断增加,难以得到有效应用的情况,高效并快速的实现文本数据特征词抽取和自动归类。本系统结合Spring MVC框架进行架构,采用JSP动态页面实现本系统的表示层,采用前端控制器DispatcherServlet来查找Controller实现系统的控制层。系统的业务逻辑层主要由数据源传输、文本预处理、文本聚类分析、聚类结果处理等模块组成。在文本预处理模块,对文本分词、停用词过滤、特征提取、文本向量空间生成的过程进行并行化设计并实现。最终将非结构化的文本数据转化为结构化的文本向量。在聚类分析模块中,设计并行化K-Means聚类算法对文本向量数据进行分布式聚类分析。针对K-Means聚类算法初始点选取的随机性问题,提出了Canopy算法来进行初始点的选取,提升聚类有效性。最后搭建Hadoop集群,对并行后的文本聚类算法进行了可扩展性实验、查准率实验以及加速比实验。实验结果表明进行并行化后的算法,聚类结果良好并且聚类效率较高。运用JMeter对系统进行性能测试,测试结果表明系统的响应时间以及并发用户数量等满足系统非功能需求。本文结合Hadoop云计算平台以及Spring MVC框架设计并实现了分布式文本聚类系统。该系统降低了大数据量下文本处理的硬件需求,让企业在大量的文本数据处理中,无需预先进行人工标注,便可以对文本主题进行抽取并进行文本信息的分类管理,为后续企业文本信息检索提供以及个性化推荐提供基础。该系统有效降低大数据量下的文本数据处理人力成本以及硬件需求。有利于员工高效快捷的处理海量文本数据,提取有效信息。因此,具有较高的研究以及实现的价值。
一种文本聚类原型系统的设计与实现
这是一篇关于聚类,文本聚类,k平均值,k中心点的论文, 主要内容为本文提出了一种文本聚类系统原型的设计与实现。该系统的设计是针对国家自然科学基金“项目管理中项目关联分析与立项决策支持系统研究”的实际需求而产生的。在自然科学基金的评审过程中,需要由专家对大量的立项建议书进行评审,这一工作是相当繁重的,而文本聚类系统的应用,可以大大减小工作强度,提高工作效率,节约评审时间。本文设计了文本聚类系统的原型框架,并在该体系框架下,详细地讨论了系统中各个子系统的分析设计和实现。本文主要在以下方面开展工作: (1)深入研究了聚类算法中的平面划分法,采用Java语言编程实现了典型算法k平均值算法和k中心点算法,用来对立项建议书进行聚类分析。 (2)申请书中大量存在的同义词和没有类别特征词对聚类的精度影响较大,因此,在系统中加入了同义词的合并和无特征词的去除,提高了聚类分析的准确率。 (3)在聚类分析结束以后,对分析结果进行了标注,得到了类模型。然后利用类模型实现对新文本的分类。 (4)采用Java、JSP技术开发了B/S模式下用户操作子系统。该子系统采用了JSP技术,实现了人机交互,方便了用户使用,并且通过程序将分析结果画成图形,给出了直观的表示。
面向跨境民族文化的文档关联分析方法研究
这是一篇关于跨境民族文化,跨境民族文化知识图谱,文本分类,文本聚类,文本排序,文档关联分析的论文, 主要内容为在大数据时代,网络已经成为文化传播的主要载体,利用智能化信息技术及时获取和分析边疆民族文化大数据意义重大。跨境民族文档关联分析能够省时省力地帮助人们分析跨境民族文化间的差异性,及时获取跨境民族文化文本数据之间的关联关系。然而,跨境民族文化文档关联分析属于特定领域任务,文本数据中语义比较复杂,仅通过现有的深度学习模型探索跨境民族文化文本数据之间的关联存在一定的困难。本文立足于跨境民族文化领域的实际需求,围绕跨境民族文化文本数据的特点,基于分层注意力网络、图卷积神经网络以及卷积神经网络等前沿技术,研究了跨境民族文化文本分类任务、跨境民族文化文本聚类任务以及跨境民族文化文本排序任务。主要的工作如下:(1)融合领域知识图谱的跨境民族文本分类方法利用文本分类技术区分出跨境民族文化文本数据是跨境民族文化文档关联分析任务的基础。基于跨境民族文化文本数据缺乏外部知识引导的情况下,识别原文中的重要信息的能力不足,导致跨境民族文化类别分类不准确的问题,提出了融合领域知识图谱的跨境民族文本分类方法。利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,并把提取到的不同层次的特征信息结合到一起辅助分类,缓解了跨境民族文化类别交叉的问题。实验结果表明提出的融合领域知识图谱的跨境民族文本分类方法较基线模型取得了较好的分类效果。(2)融合领域知识图谱的跨境民族文本聚类方法从大规模的跨境民族文化文本数据中找出文本之间的关联关系是跨境民族文化文档关联分析任务的重点。现有文本聚类模型大多基于文本本身的语义特征出发,无法捕获文本之间的关联关系,基于跨境民族文化文本数据本身的特点,提出一种融合领域知识图谱的跨境民族文本聚类方法。利用跨境民族文化知识图谱扩展实体语义信息后进行文本局部特征向量的提取,构造了一个包含文本、主题和实体的跨境民族文化文档关联分析图,采用异构图卷积神经网络学习丰富的跨境民族文化文本数据的全局特征表示,通过变分自编码网络融合文本局部和全局特征信息,利用跨境民族文化文本的潜在特征表示进行聚类。实验结果表明,提出的融合领域知识图谱的跨境民族文化文本聚类方法较基线模型取得了更好的聚类效果。(3)融合文档主题特征的跨境民族文本排序方法对跨境民族文化文本数据进行检索是跨境民族文化文档关联分析任务的重要环节,其中对排序是文本检索任务的重要环节。基于现有文本排序方法采用文本间的语义相似度进行排序忽略文本间的主题特征信息,导致检索结果不全面的问题,提出了一种融合文档主题特征的跨境民族文本排序方法。利用知识表示模型对跨境民族文化知识图谱中的三元组信息进行向量化表示,将其融合到文本中补充检索文本实体语义信息,利用文本聚类方法捕获文本数据之间的关联关系,将文档主题特征融入到检索文本和待检索文本中,构建检索文本和待检索文本之间的相似度矩阵,检索出与查询文本相关的文本数据,根据文本相似度分数排序。实验结果表明,提出的融合文档主题特征的跨境民族文本排序方法较基线模型取得了更好的效果。(4)跨境民族文化文本关联分析原型系统的设计与实现基于以上研究成果,设计并实现了跨境民族文化文档关联分析原型系统。集成了数据处理模块、跨境民族文化实体语义扩展模块、跨境民族文化文本分类模块、跨境民族文化文本检索模块,为相关用户提供了可视化的信息获取平台。
消息传递聚类算法研究及其在文本聚类中的应用
这是一篇关于消息传递聚类算法,预聚类,优化初始中心,合并策略,文本聚类的论文, 主要内容为聚类算法是一种重要的无监督学习方法,通过计算样本间的相似度来划分数据,由于其简单、高效的特点,在多个领域得到了广泛的应用,如图像分割、推荐系统、文本聚类等。本文主要研究了消息传递聚类算法(Affinity Propagation Clustering Algorithm,AP),该算法无需预设初始聚类中心,通过投票的方式,将最合适的样本定为中心点,但它对大规模数据集聚类效果不佳,且无法有效聚类非凸数据集。针对上述问题,提出了改进方案,并将改进后的算法应用到文本聚类中,获得了较好的结果。具体的工作内容如下:(1)针对AP算法在大规模数据集下运行效率低,以及准确率低的问题,本文提出了一种多层次AP聚类算法(A Multi-level Affinity Propagation Clustering Algorithm,MLAP)。该算法分为三个阶段:首先,对数据集进行K近邻密度计算,每次选取密度最大的点作为Canopy算法的初始聚类中心点,通过阈值参数判断将数据集进行粗分;其次,选取粗分后每个簇的中心点作为新的数据集Y,利用AP算法对数据集Y进行聚类;最后,将两次运行的结果合并,完成聚类。所提的改进算法,不仅提升了准确率,还减少了运行时间,在人工数据集以及UCI数据集上的实验均验证了该算法的有效性和高效性。(2)针对AP算法无法对非凸数据集进行良好聚类的问题,本文提出了一种利用概率密度函数对数据样本进行密度估计的合并策略算法(Improved Affinity Propagation Clustering Algorithm Based on Merge Strategy,APM)。该算法首先利用AP算法对数据集进行预聚类,获得粗分类的数据集;其次,计算子簇之间的最近邻关系,对最近邻居子簇进行概率密度估计,将满足阈值条件的子簇进行合并,不断迭代,直到没有可合并的子簇为止。实验结果表明,本节所提出的改进方案,在非凸数据集上得到了较好的结果,并且减小了对参数的依赖性。(3)将APM聚类算法应用到文本数据集上,实验选取THUCNews新闻数据集。首先,对文本数据进行分词、去停用词处理,然后,提取特征、计算词权,再使用APM算法对权重矩阵进行聚类,最终得到不同新闻主题的类别划分。经过实验对比发现,所提算法具有较好的效果,在文本聚类领域具有一定的应用价值。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://bishedaima.com/lunwen/46538.html