集成聚类算法及其在个性化推荐中的应用研究
这是一篇关于聚类,密度峰值,谱聚类,近邻传播,集成聚类,协同过滤推荐的论文, 主要内容为聚类是数据学习中一项关键技术,以无监督的形式进行分类。通俗地讲,聚类就是将数据划分出不一样的类簇,同一类簇中的相似度尽可能的大,而不在同类簇中的相似度尽可能的小。近年来,聚类出现在很多新的技术研究领域,如:个性化推荐。个性化推荐是依据用户数据和喜好习惯向用户推送符合偏好的信息,挖掘用户的潜在需求,这在很大程度上减少了查找信息的时间,提高了网络平台的效率。协同过滤算法面对庞杂数据进行推荐时,算法推荐效率会降低。利用聚类算法数据分类的特点来解决推荐中的弊端,不仅能降低计算量,还提升了推荐效率。聚类算法在个性化推荐技术中应用时,如何实现快速、高效率的推荐是研究的重难点。本文针对经典聚类算法自身的不足和推荐算法存在的问题缺点等进行分析研究,工作具体如下:(1)针对K-means算法随机生成初始中心对结果干扰大以及容易陷入局部最优的缺点,先提出了依靠密度峰值优化K-means初始中心的F-KMs聚类算法,再提出名为N-FK的集成算法:不仅可以快速得到最佳初始中心并且利用谱聚类的算法特点解决了F-KMs无法处理任意密度形状的数据的不足。(2)针对在处理大规模数据时,近邻传播(AP)算法复杂度高且需要巨大内存做支持,算法结果受参数取值的影响大以及AP算法无法处理非凸数据等问题。本文融合AP和N-FK算法,提出一种三阶层的集成聚类算法:第一层利用AP对数据稀疏粗分,每类选取一个类代表元;第二层对得到的类代表元通过N-FK进行细致聚类;最后合并前两层的结果得到所有数据的精确划分。所提出的集成算法,融合了AP及N-FK算法的优点,可以处理不同类型的大规模数据,减少存储空间利用。(3)将本文集成聚类算法应用于个性化推荐中,设计出基于集成聚类的多层次推荐算法。此算法先将原大数据集进行聚类划分,然后从相似度高的目标类中重新构建用户矩阵进行协同过滤推荐,减少了计算复杂度。文章采用MovieLens数据集进行实验,通过推荐性能度量指标进行测评检验,证明本文提出的多层次推荐算法提高了的推荐效率,并可以处理数据稀疏性的弊端,使推荐更具“个性化”。
基于粗糙集的重叠社区发现算法研究
这是一篇关于重叠社区发现,粗糙集,密度峰值,距离动态模型,属性节点的论文, 主要内容为随着互联网的发展和社会的进步,各个领域每天都会产生大量相互关联、彼此依赖的数据,这些数据根据不同的主题形成了不同的复杂系统。我们将复杂系统抽象成复杂网络,即将复杂系统中的研究对象看作复杂网络中的节点,将对象之间的联系看作网络中的边。对复杂网络的理解和分析可帮助我们根据不同主题挖掘不同的知识,发现其中隐藏的信息从而对问题进行处理和预测。挖掘网络中的社区结构是复杂网络中的一项重要研究内容,在推荐系统、信息传播、行为预测和数据挖掘等各方面起到了不可代替的作用。社区结构的重叠节点在实际生活中普遍存在,重叠社区发现算法使得划分的社区结构更有效。复杂网络除了表现出重叠性之外,还具有动力学复杂性,即社区结构中的节点状态不断改变。在实际网络数据中,除了包括网络的拓扑结构信息,还含有丰富的节点属性信息。目前一些社区发现算法未能很好地刻画出社区的重叠区域,且没有考虑到节点的动态性和属性信息等。针对网络具有重叠性、动态性和节点富含属性信息,本文具体工作有以下三个方面:1.提出了一种基于粗糙集和密度峰值的重叠社区发现算法。该算法在传统的节点局部相似性度量基础上,结合灰色关联分析方法得到节点的全局相似性,进而将其转化为节点间距离。将密度峰值算法的思想应用在该方法中,根据网络结构自动选取中心节点。结合粗糙集理论,根据距离比例关系,定义了社区的近似集和边界域,针对边界域进行计算,得到重叠社区结构。实验验证了该算法具有有效性和可行性。2.针对网络社区结构的重叠性和动态性,提出了一种基于粗糙集和距离动态模型的重叠社区发现方法。该算法首先根据网络的拓扑结构,结合节点度中心性和定义的全局距离得到K个中心节点,然后结合粗糙集理论和距离动态模型的思想,根据边界域与下近似集节点间相连的边的距离变化,缩小边界域节点,迭代找到最佳的重叠社区结构。最后根据两条规则处理“伪”重叠节点。实验验证了改进算法的可行性和有效性。3.网络除了含有拓扑结构信息,还富含节点属性信息。针对网络社区结构具有重叠性和属性节点,提出了一种结合网络结构和属性的基于粗糙集的重叠社区发现算法。首先在传统的节点局部属性相似性和节点局部结构相似性的基础上,定义了融合两者信息的全局节点相似性,进而转化为节点全局距离,然后结合节点聚集系数和节点全局距离得到K个中心节点,最后结合粗糙集理论划分重叠社区结构。实验结果表明该算法的有效性和可行性。
基于密度的聚类算法研究及其在图书推荐系统中的应用
这是一篇关于密度聚类,密度峰值,Warshall算法,协同过滤,推荐系统的论文, 主要内容为聚类算法在数据挖掘、模式识别和机器学习等领域有着广泛的应用,它是数据挖掘技术中的重要组成部分。海量数据的出现,使数据挖掘技术的应用层出不穷,其中聚类分析是大数据处理的基本操作。聚类算法就是将相似的元素划分在一类,将差别大的元素划分在不同类。本文研究了各种经典聚类算法,其中密度聚类和密度峰值聚类算法是着重研究的,在此基础上提出了相应的改进算法,并将改进算法应用于图书推荐系统。具体研究内容包括以下三个方面:(1)针对密度聚类算法计算的复杂性,提出一种利用Warshall算法降低其复杂性的改进算法W-DBSCAN。在密度聚类算法中,相似度高的数据是密度相连的,本文构造了一个矩阵(n×n),其中元素(x,y)标记为1指的是数据x和y是直接密度可达,然后利用Warshall算法计算该矩阵的可达矩阵,可达矩阵指密度相连的数据。通过Warshall算法,将求解密度相连问题转化为求解可达矩阵问题,降低了算法的复杂性。(2)针对密度峰值算法需要在决策图上选择质心点并不适应于所有数据的问题,提出一种新的集成聚类算法IDF。首先,将局部密度最大的数据对象作为第一个质心;其次,从它出发采用W-DBSCAN算法进行聚类,得到第一个簇;然后从剩余数据中寻找局部密度最大的数据对象,即没有划分类别的数据中局部密度最大的数据,将它作为另一个质心,继续用W-DBSCAN算法进行聚类;最后,通过迭代上述步骤直到所有数据被处理,算法结束。(3)针对大学生在学校图书馆中盲目选择图书或者不知道有哪些图书适合自己阅读的问题,利用聚类和协同过滤算法提出了一个高校图书推荐系统,通过IDF算法聚类得到的第一类结果是所有读者最感兴趣内容,将该部分内容对新加入图书馆的读者推荐解决了“冷启动”问题。首先,搜集并整理数据:然后对读者的历史浏览记录聚类,即对读者进行了划分;最后,利用协同过滤算法计算目标读者的Top-n邻居集,并生成推荐。
集成聚类算法及其在个性化推荐中的应用研究
这是一篇关于聚类,密度峰值,谱聚类,近邻传播,集成聚类,协同过滤推荐的论文, 主要内容为聚类是数据学习中一项关键技术,以无监督的形式进行分类。通俗地讲,聚类就是将数据划分出不一样的类簇,同一类簇中的相似度尽可能的大,而不在同类簇中的相似度尽可能的小。近年来,聚类出现在很多新的技术研究领域,如:个性化推荐。个性化推荐是依据用户数据和喜好习惯向用户推送符合偏好的信息,挖掘用户的潜在需求,这在很大程度上减少了查找信息的时间,提高了网络平台的效率。协同过滤算法面对庞杂数据进行推荐时,算法推荐效率会降低。利用聚类算法数据分类的特点来解决推荐中的弊端,不仅能降低计算量,还提升了推荐效率。聚类算法在个性化推荐技术中应用时,如何实现快速、高效率的推荐是研究的重难点。本文针对经典聚类算法自身的不足和推荐算法存在的问题缺点等进行分析研究,工作具体如下:(1)针对K-means算法随机生成初始中心对结果干扰大以及容易陷入局部最优的缺点,先提出了依靠密度峰值优化K-means初始中心的F-KMs聚类算法,再提出名为N-FK的集成算法:不仅可以快速得到最佳初始中心并且利用谱聚类的算法特点解决了F-KMs无法处理任意密度形状的数据的不足。(2)针对在处理大规模数据时,近邻传播(AP)算法复杂度高且需要巨大内存做支持,算法结果受参数取值的影响大以及AP算法无法处理非凸数据等问题。本文融合AP和N-FK算法,提出一种三阶层的集成聚类算法:第一层利用AP对数据稀疏粗分,每类选取一个类代表元;第二层对得到的类代表元通过N-FK进行细致聚类;最后合并前两层的结果得到所有数据的精确划分。所提出的集成算法,融合了AP及N-FK算法的优点,可以处理不同类型的大规模数据,减少存储空间利用。(3)将本文集成聚类算法应用于个性化推荐中,设计出基于集成聚类的多层次推荐算法。此算法先将原大数据集进行聚类划分,然后从相似度高的目标类中重新构建用户矩阵进行协同过滤推荐,减少了计算复杂度。文章采用MovieLens数据集进行实验,通过推荐性能度量指标进行测评检验,证明本文提出的多层次推荐算法提高了的推荐效率,并可以处理数据稀疏性的弊端,使推荐更具“个性化”。
基于密度的聚类算法研究及其在图书推荐系统中的应用
这是一篇关于密度聚类,密度峰值,Warshall算法,协同过滤,推荐系统的论文, 主要内容为聚类算法在数据挖掘、模式识别和机器学习等领域有着广泛的应用,它是数据挖掘技术中的重要组成部分。海量数据的出现,使数据挖掘技术的应用层出不穷,其中聚类分析是大数据处理的基本操作。聚类算法就是将相似的元素划分在一类,将差别大的元素划分在不同类。本文研究了各种经典聚类算法,其中密度聚类和密度峰值聚类算法是着重研究的,在此基础上提出了相应的改进算法,并将改进算法应用于图书推荐系统。具体研究内容包括以下三个方面:(1)针对密度聚类算法计算的复杂性,提出一种利用Warshall算法降低其复杂性的改进算法W-DBSCAN。在密度聚类算法中,相似度高的数据是密度相连的,本文构造了一个矩阵(n×n),其中元素(x,y)标记为1指的是数据x和y是直接密度可达,然后利用Warshall算法计算该矩阵的可达矩阵,可达矩阵指密度相连的数据。通过Warshall算法,将求解密度相连问题转化为求解可达矩阵问题,降低了算法的复杂性。(2)针对密度峰值算法需要在决策图上选择质心点并不适应于所有数据的问题,提出一种新的集成聚类算法IDF。首先,将局部密度最大的数据对象作为第一个质心;其次,从它出发采用W-DBSCAN算法进行聚类,得到第一个簇;然后从剩余数据中寻找局部密度最大的数据对象,即没有划分类别的数据中局部密度最大的数据,将它作为另一个质心,继续用W-DBSCAN算法进行聚类;最后,通过迭代上述步骤直到所有数据被处理,算法结束。(3)针对大学生在学校图书馆中盲目选择图书或者不知道有哪些图书适合自己阅读的问题,利用聚类和协同过滤算法提出了一个高校图书推荐系统,通过IDF算法聚类得到的第一类结果是所有读者最感兴趣内容,将该部分内容对新加入图书馆的读者推荐解决了“冷启动”问题。首先,搜集并整理数据:然后对读者的历史浏览记录聚类,即对读者进行了划分;最后,利用协同过滤算法计算目标读者的Top-n邻居集,并生成推荐。
基于多源网络的联合社团发现研究
这是一篇关于社团发现,多源网络,网络嵌入,密度峰值的论文, 主要内容为社团发现可以挖掘社交网络中的社团结构,有助于分析社会活动的规律,在日常生活中有着广泛的应用,如推荐系统、链接预测等。目前社团发现的相关算法主要针对单个网络进行了大量研究,但在实际生活中,个体并不只存在于单一社交网络,而是同时隶属于多个社交网络。因此,单个社交网络会出现信息缺失的情况,导致最终的社团发现结果不正确。如何充分利用多个社交网络的结构信息进行社团发现是本文的第一个研究内容。然而在多个网络中,存在某些社交网络的结构信息被重复表达,联合这些具有重复信息的社交网络不仅不能提高社团发现的准确率,而且还会降低联合过程中的效率。因此,如何在保证社团发现准确率变化不大的前提下删除重复的网络是本文的第二个研究内容。本文的主要研究工作有:1.提出了一种基于多粒度网络联合表示的多源网络社团发现算法,该算法充分利用每个网络中锚节点的结构信息,对锚节点进行信息交互,使锚节点可以从多个网络中获取结构信息,最后利用改进的密度峰值算法进行社团发现。为了验证算法的有效性,对单网络和多网络分别进行社团发现,实验结果证明进行多粒度网络联合之后的社团发现结果比单网络的结果准确率要高。2.提出了一种面向社团发现的多源网络选择算法,该算法将每个网络中的拓扑结构转换成二元关系集合,然后在二元关系集合中找出每个集合的域值,对具有包含关系的域值计算其对应网络的关系矩阵,运用Jaccard系数计算两个网络之间的相似度,并对相似度高且被包含的网络进行删除。为了验证算法的有效性,对删除前后的网络分别进行社团发现,实验结果证明删除冗余的网络对社团发现的精确性影响不大。3.设计实现了多源网络社团发现系统,该系统运用flask框架对多源网络的选择和联合发现的功能进行了实现。
基于多源网络的联合社团发现研究
这是一篇关于社团发现,多源网络,网络嵌入,密度峰值的论文, 主要内容为社团发现可以挖掘社交网络中的社团结构,有助于分析社会活动的规律,在日常生活中有着广泛的应用,如推荐系统、链接预测等。目前社团发现的相关算法主要针对单个网络进行了大量研究,但在实际生活中,个体并不只存在于单一社交网络,而是同时隶属于多个社交网络。因此,单个社交网络会出现信息缺失的情况,导致最终的社团发现结果不正确。如何充分利用多个社交网络的结构信息进行社团发现是本文的第一个研究内容。然而在多个网络中,存在某些社交网络的结构信息被重复表达,联合这些具有重复信息的社交网络不仅不能提高社团发现的准确率,而且还会降低联合过程中的效率。因此,如何在保证社团发现准确率变化不大的前提下删除重复的网络是本文的第二个研究内容。本文的主要研究工作有:1.提出了一种基于多粒度网络联合表示的多源网络社团发现算法,该算法充分利用每个网络中锚节点的结构信息,对锚节点进行信息交互,使锚节点可以从多个网络中获取结构信息,最后利用改进的密度峰值算法进行社团发现。为了验证算法的有效性,对单网络和多网络分别进行社团发现,实验结果证明进行多粒度网络联合之后的社团发现结果比单网络的结果准确率要高。2.提出了一种面向社团发现的多源网络选择算法,该算法将每个网络中的拓扑结构转换成二元关系集合,然后在二元关系集合中找出每个集合的域值,对具有包含关系的域值计算其对应网络的关系矩阵,运用Jaccard系数计算两个网络之间的相似度,并对相似度高且被包含的网络进行删除。为了验证算法的有效性,对删除前后的网络分别进行社团发现,实验结果证明删除冗余的网络对社团发现的精确性影响不大。3.设计实现了多源网络社团发现系统,该系统运用flask框架对多源网络的选择和联合发现的功能进行了实现。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://bishedaima.com/lunwen/55902.html