基于新增用户和评分的推荐系统研究
这是一篇关于个性化推荐,评分预测,相似性函数,二分网络的论文, 主要内容为计算机和互联网的快速发展改变了人们的生活方式。从前,人们在现实中进行日常生活交流。现在,人们在互联网上进行社交生活。互联网的普及和应用使互联网记录了大量的数据,海量的数据使得人们难以快速选择出自己感兴趣的信息,这就是“信息超载”问题。作为一种信息过滤工具,推荐系统因其为用户提供准确和个性化的推荐得到了广泛的应用。如今,使用推荐系统的用户数量越来越多,如果一个没有任何历史行为数据的新用户进入推荐系统,该如何使其获得推荐以及如何对其进行评分预测?对于考虑时间信息的基于网络推荐系统存在新用户无法推荐问题,本文研究了在网络中新增用户节点对推荐效果影响。进一步,使用上述研究结果在评分矩阵为新用户填充评分,本文研究了填充评分对新用户评分预测的影响。本文主要工作如下:(1)在考虑时间信息的基于网络推荐系统中,测试集中有一部分用户不存在于训练集中,本文视这部分用户为新用户。为了使新用户获得推荐,本文提出在训练集用户-对象二分网络中添加虚拟新用户节点,并为新用户添加连边。针对新用户连边添加问题,本文提出三种方案:第一种是与训练集中小度用户连接到的对象相连接,小度用户是从度属于1至20的所有用户中随机选取;第二种是与训练集中度用户连接到的对象相连接,中度用户是从度属于平均值减2到平均值加2的用户中随机选取;第三种是与训练集大度用户连接到的对象相连接,大度用户是从度最大的50个用户中随机选取。基于MovieLens1M和MovieLens100K数据集,应用六种基于网络推荐算法,即CN、AA、Salton、Sorensen、MD、HHM算法,本文比较了三种连边添加方案对推荐效果影响,发现第一种方案的推荐准确度、多样性和新颖度更好。(2)进一步,使用第一种方案在训练集中为新用户填充评分,即为新用户填充训练集不活跃用户感兴趣的对象真实评分,研究了新用户评分预测问题。通过应用基于人口统计信息的协同过滤算法(Demographic Collaborative Filtering,DCF)、SOREC方法,探讨了新增评分的DCF(Newly added ratings DCF,RDCF)和新增评分的基于用户混合协同过滤算法(Newly added ratings User-Based Hybrid Collaborative Filtering,RUHCF),新增评分的SOREC方法(Newly added ratings SOREC,RSOREC),发现新增评分算法的预测准确度更高。综上所述,在考虑时间信息的基于网络推荐系统中添加新用户节点,并将新用户与小度用户连接到的对象相连接,这样能使推荐准确度、多样性和新颖度更优。在训练集评分矩阵为新用户填充不活跃用户感兴趣对象的真实评分,这样能使新用户的评分预测准确度更高。
复杂网络节点重要性融合指标研究与节点演化分析
这是一篇关于节点重要性,单分网络,二分网络,知识图谱网络的论文, 主要内容为随着网络技术的飞速发展,信息日渐变得系统化和网络化。用户想在繁杂的数据网络中快速定位重点信息具有一定的难度,且基于重要性节点的网络分析对于人们的生产生活具有重要意义,所以高效精确地评估节点重要性与基于重要性节点的网络分析成为学者们关注的焦点。本文首先对复杂网络中重要节点识别工作进行了新维度的探索,即基于单分网络与二分网络实现节点重要性指标融合。目前中心性指标算法及其变体在开发研究中应用广泛,也有众多学者提出了多种指标融合算法,但目前存在的方法同样存在一些问题。第一,这些算法的时间复杂度高过高,这使得它们无法适用于大规模的网络中。第二,鲜见将网络结构因素与现实数据关系相结合的不同网络分析。针对这两个问题,我们先对复杂网络中节点重要性研究现状进行了探讨,并在电影数据网络上实现了综合单分网络与二分网络的节点重要性评估新方法。通过实验与其他基础算法进行对比,双网络融合指标排序方法比单指标有更精准的排序结果。其次,基于重要性节点的网络分析也具有一定的探索价值。观察网络中重要性关键点的发展趋势与变化特征可以探索科学发展动态,给予决策或行动更多的现实指导意义。由此,本文利用硕博士对企业的研究信息构建了知识图谱网络,探究了重要节点之间的内部结构特征和演化方式。以可视化的角度,给出了硕博士研究方式的特色之处,同时从重要性节点变化角度观察演化过程,证明了网络结构愈发复杂,网络中重要性中心节点集逐渐转移或多样化,并从网络结构演化角度来看,硕博士的研究是以热点节点与新生节点相结合的方式进行,证明了硕博士论文的研究具有广泛性和创新性。
基于二分网络的长期推荐及扩散算法的可预测性
这是一篇关于推荐系统,二分网络,扩散算法,长期推荐,预测精度上界的论文, 主要内容为在人类社会快速发展的今天,网络上的信息呈现爆发式增长,这已经成为人们快速有效获取其感兴趣信息的主要障碍。同时,越来越多的线上平台希望通过提高用户的忠诚度、为用户提供更好的服务来提升收益。推荐系统的出现既能够帮助解决日益严重的信息过载问题,又可以在用户没有明确目标的情况下,依据用户的历史记录为其提供个性化的推荐服务,因此逐渐成为大家广泛关注的领域。推荐系统的核心是推荐算法,在众多算法中,一类基于二分网络上扩散的推荐算法已经受到了很多关注。目前,已有大量的研究对此类算法进行了改进和补充,以此来提升推荐精度。相关研究表明此类算法在单步推荐中倾向于推荐热门商品,虽然单步推荐精度很高,但是其长期表现很差。除此之外,改进基于扩散的推荐算法虽然可以提高精度,但该类算法存在最大推荐精度,如何提高最大推荐精度以获得更多的精度提升空间,是一类值得思考的问题。因此,本文基于扩散算法的长期推荐以及提高基于扩散算法的最大推荐精度进行研究。目前在基于扩散的推荐算法的研究中,更多研究关注的是推荐的短期性能,而在现实生活中,推荐是一个长期的过程,如在线网络会随着时间的推移而发展,并且用户在购物时往往具有求新的消费心理,因此推荐算法的长期表现也需要更多的关注。针对上述问题,本文首先在一个基于时间的演化模型上尝试将短期推荐中表现良好的经典算法应用到长期推荐中,观察这些经典算法的长期表现,结果表明长期推荐的多样性和准确性逐渐变差。为了改进算法的长期推荐的表现,本文接着提出了一个时间因子,来增强用户在短时间内产生的两个历史记录的相似性,减弱时间间隔较长的两个历史记录的相似性,并将这个时间因子融合到基于扩散的推荐算法中,应用到长期推荐上。实验结果表明,改进的算法在不损失推荐精度的前提下,每一步的推荐多样性都要优于经典算法的推荐多样性,尤其是在演化的后期,推荐多样性指标的数值提升了一半以上;观察长期推荐的多样性,发现在演化初期,多样性曲线会迅速下降,并且下降幅度远高于经典算法的多样性曲线,而到了演化后期,则逐渐趋于平稳。依据本文算法,推荐列表中的商品便会丰富起来,用户的选择性会更加多样化,推荐系统也会更加健康。另一方面,目前研究者们在改进和补充基于扩散的推荐算法时,大家更多的致力于提升推荐算法的精度,就会出现一个至关重要的问题,即该类推荐算法的精度会有一个最大值,那么这个最大推荐精度是否可以通过一些方法得到提升,来为算法精度的提升提供更多的空间。针对这一问题,本文首先介绍了量化最大推荐精度的方法,并从中发现了推荐算法的精度和多样性都依赖于资源扩散宽度;进而提出了一个添加虚拟边的方法,通过这条虚拟边可以让更多的商品获得资源,来增加推荐算法资源扩散的宽度,用户历史记录中未出现过的商品也可以直接排在推荐列表的前列,从而提高基于扩散的推荐算法的最大推荐精度;同时,实验结果也表明,本文的方法也提高了推荐精度,在基于目标用户上,提升了测试集中的商品出现在推荐列表中的排名,而对于目标商品,其出现在用户的推荐列表中的平均位置会提前。本文的方法不仅为提升算法精度获得了更多的提升空间,也可以将用户历史记录中未出现过的商品进行推荐,提升推荐精度和多样性。
基于用户兴趣及时间信息的个性化推荐系统研究
这是一篇关于用户兴趣模式,个性化推荐,相似性函数,二分网络的论文, 主要内容为信息技术与互联网的发展引领人们步入人工智能的时代。在这个时代中,互联网记录了海量的信息。人们每日都在主动或者被动地接收着大量的信息。这便是所谓的“信息过载”。为了解决这一问题,研究人员提出了许多方案。例如,分类目录、搜索引擎和推荐系统。它们都是帮助人们快速寻找有用信息的工具。推荐系统不同于前面两者的是,它可以在用户没有明确需求的情况下帮助用户寻找感兴趣的信息。本文通过研究推荐系统的实证数据,分析用户行为模式,并用于改进推荐算法。此外,研究了推荐系统中所用数据的数据量与时间的选取对推荐算法准确度的影响。主要研究工作如下:(1)本文研究了基于用户兴趣模式的个性化推荐系统。通过研究四个实证推荐系统数据集(Netflix、SMovie Lens、LMovieLens和RYM)中用户的活跃度与对象的流行度之间的关系,发现活跃度高的用户对于冷门对象具有较为强烈的偏好,活跃度低的用户则表现出较为广泛的偏好。本文将这一用户兴趣模式引入到个性化推荐算法中,提出了一个改进算法的一般函数形式。并运用这一函数形式改进七个基于不同相似性函数的推荐算法,最后得到了四个新的推荐算法。本文在上述四个实证数据集上对这四个新的推荐算法进行了测试,发现由于Heat Conduction(HC)具有高多样性与低准确度,该算法在改进过后多样性有所降低,但其准确度得到很大提升。其余改进过后的推荐算法的准确度与多样性都要优于改进之前的算法。此外,本文将其中一个新算法(P-CN)与另外两个优秀的推荐算法,即Hybrid Algorithm Of Heat Conduction And Mass Diffusion(HHM)和Biased Heat Conduction(BHC),进行了比较发现,该新算法在多样性与准确度上表现更为出色。本文在四个实证推荐系统数据集上测试了四个新算法对于不同流行度的对象的推荐效果发现,新算法能够有效地提升低流行度对象的推荐准确度。(2)本文研究了基于时间效应的个性化推荐系统。基于MovieLens和Netflix两个实证推荐系统数据集,研究了用于推荐系统的数据集的数据量与时间信息对于三种推荐算法,即Common Neighbors(CN)、Adamic-Adar算法(AA)和Sorensen算法(SOR),的推荐效果的影响。本文研究发现,用于个性化推荐的数据量的增加并不总是会提高推荐的准确度,并且靠近当前推荐时间的数据对于提高推荐的准确度非常重要。本文对Mass Diffusion(MD)和HHM算法的进一步研究表明,在使用靠近当前推荐时间的数据集时,HHM算法在获得最优推荐效果时的函数形式与MD算法相同。本文将MD算法与上述提及的三种算法(CN、AA和SOR)进行了比较发现,MD算法表现更为出色。这表明,在使用靠近当前推荐时间的数据集时,HHM算法并不需要通过调整优化参数就能够获得良好的推荐效果。这个发现可以大幅减少推荐过程中所用的时间。综上所述,本文通过分析用户的兴趣模式以及推荐中所使用的数据的时间和数据量的选取对推荐效果的影响,为推荐算法的改进提供依据。
基于协同过滤的推荐算法研究与系统实现
这是一篇关于协同过滤,聚类,二分网络,多源信息,矩阵分解的论文, 主要内容为面对日益严重的“信息过载”问题,很多研究提出使用信息检索技术来解决,但是该技术仍有对搜索关键词依赖和无法提供个性化服务等问题。为了解决上述问题,推荐系统被提出。其中协同过滤算法是推荐系统中常用的一种推荐算法,但是仍面临着数据稀疏性、冷启动、可扩展性和评分数据本身的局限性等挑战。因此,本文以上述存在的问题为出发点,结合不同的分析方法,融合多源信息,在基于内存和基于矩阵分解的两种传统CF算法的基础上进行了研究、改进和实践应用。工作内容如下:研究了基于聚类和二分网络的协同过滤模型(Collaborative Filtering model based on Clustering and Bipartite Network,CBNRank)在缓解协同过滤算法中数据稀疏性、可扩展性和评分数据本身的局限性问题的效果。首先,使用聚类和协同过滤组合算法处理评分数据,对用户聚类,在每个聚类簇中利用基于用户协同过滤算法填充该评分矩阵,以降低算法的运算时间和数据的稀疏度。然后,将评分数据处理为成对偏好数据集,构建相应的二分网络结构,以缓解评分数据本身的局限性问题。最后,利用基于图的排名算法计算项目之间的相似度,实现Top N推荐。实验结果表明CBNRank模型对于缓解上述问题起到了积极的作用,提升了预测精准度。研究了基于多源信息和深度矩阵分解的协同过滤模型(Collaborative Filtering model based on Multi-source Information and Deep Matrix Factorization,MIDMFRank)在缓解协同过滤算法中数据稀疏性和冷启动问题的效果。首先,分别将用户和项目信息通过不同网络层的处理,得到用户和项目特征。然后,将评分数据作为深度矩阵分解模型的输入,分别学习到用户和项目隐特征,将用户和项目特征分别融合到用户和项目隐特征中,通过融合后的隐特征继续训练模型,以缓解冷启动问题。最后,根据归一化交叉熵损失函数继续学习,得到最终的评分预测矩阵,实现Top N推荐。实验结果表明MIDMFRank模型对于缓解上述问题有促进作用,提高了评分预测精度。设计了基于MIDMFRank模型的电影推荐系统。该系统以需求为出发点,设计了整体架构、功能模块和数据库,最终实现了推荐服务,验证了MIDMFRank模型在实践应用中的可行性。
基于用户兴趣及时间信息的个性化推荐系统研究
这是一篇关于用户兴趣模式,个性化推荐,相似性函数,二分网络的论文, 主要内容为信息技术与互联网的发展引领人们步入人工智能的时代。在这个时代中,互联网记录了海量的信息。人们每日都在主动或者被动地接收着大量的信息。这便是所谓的“信息过载”。为了解决这一问题,研究人员提出了许多方案。例如,分类目录、搜索引擎和推荐系统。它们都是帮助人们快速寻找有用信息的工具。推荐系统不同于前面两者的是,它可以在用户没有明确需求的情况下帮助用户寻找感兴趣的信息。本文通过研究推荐系统的实证数据,分析用户行为模式,并用于改进推荐算法。此外,研究了推荐系统中所用数据的数据量与时间的选取对推荐算法准确度的影响。主要研究工作如下:(1)本文研究了基于用户兴趣模式的个性化推荐系统。通过研究四个实证推荐系统数据集(Netflix、SMovie Lens、LMovieLens和RYM)中用户的活跃度与对象的流行度之间的关系,发现活跃度高的用户对于冷门对象具有较为强烈的偏好,活跃度低的用户则表现出较为广泛的偏好。本文将这一用户兴趣模式引入到个性化推荐算法中,提出了一个改进算法的一般函数形式。并运用这一函数形式改进七个基于不同相似性函数的推荐算法,最后得到了四个新的推荐算法。本文在上述四个实证数据集上对这四个新的推荐算法进行了测试,发现由于Heat Conduction(HC)具有高多样性与低准确度,该算法在改进过后多样性有所降低,但其准确度得到很大提升。其余改进过后的推荐算法的准确度与多样性都要优于改进之前的算法。此外,本文将其中一个新算法(P-CN)与另外两个优秀的推荐算法,即Hybrid Algorithm Of Heat Conduction And Mass Diffusion(HHM)和Biased Heat Conduction(BHC),进行了比较发现,该新算法在多样性与准确度上表现更为出色。本文在四个实证推荐系统数据集上测试了四个新算法对于不同流行度的对象的推荐效果发现,新算法能够有效地提升低流行度对象的推荐准确度。(2)本文研究了基于时间效应的个性化推荐系统。基于MovieLens和Netflix两个实证推荐系统数据集,研究了用于推荐系统的数据集的数据量与时间信息对于三种推荐算法,即Common Neighbors(CN)、Adamic-Adar算法(AA)和Sorensen算法(SOR),的推荐效果的影响。本文研究发现,用于个性化推荐的数据量的增加并不总是会提高推荐的准确度,并且靠近当前推荐时间的数据对于提高推荐的准确度非常重要。本文对Mass Diffusion(MD)和HHM算法的进一步研究表明,在使用靠近当前推荐时间的数据集时,HHM算法在获得最优推荐效果时的函数形式与MD算法相同。本文将MD算法与上述提及的三种算法(CN、AA和SOR)进行了比较发现,MD算法表现更为出色。这表明,在使用靠近当前推荐时间的数据集时,HHM算法并不需要通过调整优化参数就能够获得良好的推荐效果。这个发现可以大幅减少推荐过程中所用的时间。综上所述,本文通过分析用户的兴趣模式以及推荐中所使用的数据的时间和数据量的选取对推荐效果的影响,为推荐算法的改进提供依据。
基于评分系统的个性化推荐算法研究
这是一篇关于推荐系统,个性化推荐算法,K-means聚类,协同过滤,二分网络的论文, 主要内容为推荐系统是现代电子商务平台的重要组成部分,精准的推荐对于产品的营销无疑具有极大的促进作用。推荐算法作为推荐系统的关键与核心技术,受到来自网络科学与电子商务等领域学者和工程师的高度重视与广泛关注,其研究具有重要的理论意义与经济价值。自推荐系统出现以来,已涌现不少算法技术,然而现有的各种算法都或多或少存在各自一定的局限性,例如,当前应用最广的协同过滤(Collaborative Filtering,CF),由于它对用户和物品之间的交互信息具有很强的依赖性,当数据稀疏时其推荐的精准度会大大降低。此外,许多网络平台为了更好了解用户的喜好和需求,都构建了评分系统,例如电影平台中用户对电影的评分、音乐平台中用户对歌曲的评分等。如何利用这些评分信息来进行个性化推荐是推荐算法研究的重要课题。目前专门针对评分系统的推荐算法研究相对匮乏,且相关文献中大多都只利用高评分信息,而忽视低评分数据隐含的内在信息,可能导致推荐的精准度降低。因此,本文聚焦评分系统,综合运用K-means聚类方法、向量欧氏距离阈值法、复杂网络节点相似性算法等方法,针对上述问题提出了几种改进个性化推荐算法。首先,针对评分系统提出了一种基于缩减物品空间上的个性化推荐算法(ICF算法)。该算法一方面通过对物品空间进行缩减,把单个物品的稀少信息投影到有限类物品空间上,从而一定程度上改善了数据稀疏性问题;另一方面运用K-means聚类对用户之间的相似性信息进行二次提取,提出了加权相似性度量指标,更加准确地提取和刻画用户之间的兴趣相似性,因而获得了更精确的推荐效果。并进一步给出了ICF算法的完整流程,在获取了“用户-物品”原始数据的情况下,计算机可执行流程并自动生成目标用户的推荐列表,提高了推荐系统的执行效率。其次,针对评分系统分别提出了基于用户兴趣关联网络的个性化推荐算法(UNP算法)和基于物品兴趣关联网络的个性化推荐算法(ONP算法)。两种算法在充分利用用户评分信息的基础上,通过计算向量的欧氏距离和设置阈值,筛选出对象之间强关联性,分别构建了用户兴趣关联网络和物品兴趣关联网络,再结合二分网络的结构信息,计算目标用户感兴趣的物品排序,从而实现目标用户的个性化推荐。最后,为了测试本文提出算法的推荐效果,将ICF算法、UNP算法和ONP算法分别在Movie Lens和Netflix数据集上进行了性能测试,并且与几种典型推荐算法的推荐效果进行对比,实验结果表明,ICF算法和UNP算法的推荐质量都有了显著地提升。
基于图网络的药物靶点重定位研究
这是一篇关于图网络,药物重定位,相似性计算,二分网络,集成网络的论文, 主要内容为由于生命体及疾病具有十分复杂的生物机制,研发新的药物存在极大的困难,且往往耗费高昂的经济代价和时间成本。为解决此类问题,对海量的药物与靶点数据深入研究,已成为新的研究热点。随着生物信息学的快速发展,运用图网络方法发现药物与潜在靶点的相互作用,将显著加速药物研发过程,进而实现药物靶点重定位研究。本文采用Drug Bank、MATADOR等公开数据库中的药物和靶点数据集构建复杂图网络分析模型,预测药物靶点相互作用。全文工作主要包括二个方面:(1)提出了一种基于二分网络的预测方法,解决小规模数据集中无法准确识别药物靶点的问题。根据二分网络的局部结构拓扑特性,整合资源分配算法和协同过滤算法,计算出药物靶点预测得分。在两个公共数据集上进行交叉检验,并与四种典型的网络相似性算法进行对比,AUC和AUPR等实验评估指标显著优于对比实验。在实验结果分析中,发现了37种新的药物重定位靶标,并在Uni Prot数据库和相关文献中得到验证。(2)提出了一种基于异构网络的预测方法,解决药物关联数据较为复杂时,无法有效的预测出靶点信息的问题。根据多层异构复杂网络间的链路关系,集成药物-药物、药物-疾病、药物-副作用、蛋白质-蛋白质和蛋白质-疾病的相互作用数据。在药物-蛋白质相互作用数据基础上,融合药物-药物相似性网络和蛋白质-蛋白质相似性网络,计算出药物靶点预测结果。通过交叉验证和鲁棒性检验,实验结果优于对比方法,并在异构模型的基础上设计了B/S架构的药物靶点预测系统。本文的研究工作均在真实的数据集上进行了充分测试,实验结果表明本文提出的两种方法对于从海量数据中发现药物靶点是切实有效的。因而从复杂图网络中完成药物靶点重定位研究具有重要的现实意义。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://bishedaima.com/lunwen/49191.html