分布式环境下的多子图匹配技术研究
这是一篇关于分布式系统,子图匹配,多查询优化,局部敏感哈希的论文, 主要内容为图(Graph)是一种历史悠久的抽象结构,最初产生于图论,现如今在互联网时代重新焕发了活力,在社交网络、电子商务、知识图谱、城市道路、生物信息等不同领域中均有应用。正是因为图数据的日益流行,近十几年内出现了许多新型的图数据库。在图数据库的众多图处理算法中,子图匹配是一种重要的基础算法,其目的是在数据图中寻找到所有与查询图结构一样的子图。与传统关系型数据库一样,图数据库中也存在多查询问题,即系统接收到多个查询图,然后需要对这多个查询图执行子图匹配。但由于多子图匹配问题本身的复杂性较高、查询数量较多,并且数据规模不断增大,所以现有的单机系统已经无法有效地处理海量数据的多子图匹配查询问题。为了能够高效地处理海量数据的多子图匹配查询问题,本文利用分布式系统实现了一种新的多子图匹配优化方法。该方法从数据划分、查询图内部、查询图间三个方面进行优化,主要贡献如下:(1)研究并设计了一种基于局部敏感哈希的数据划分方法。该划分方法根据不同数据点的邻居点集合之间的相似性,评估数据点的相似性,从而将相似的数据顶点划分到同一台机器中,以减少任务处理时的数据通信量。(2)研究并设计了一种基于局部敏感哈希的任务合并方法。该方法可以将多个相似的任务合并成一个较大的任务,从而避免相似任务在独立执行时重复计算公共部分。除此之外,任务合并还可以减少任务数量,能够在一定程度上减少额外的任务调度开销。(3)研究并设计了一种基于局部敏感哈希的查询分组方法。该方法可以对输入的多个查询图进行分组,从而将相似的查询图分到同一组中,减少多个查询图之间的重复计算。本文在真实数据集、人造数据集上进行了大量实验,以评估本文方法的性能。实验结果表明,本文方法具有良好的可扩展性,各个优化技术均能够产生明显优化效果。并且,在处理多个查询图时,本文方法相比于其它算法,查询处理速度要快10倍以上,充分证明了本文方法处理多查询问题的有效性。
基于幂律特性和局部敏感哈希的社交网络个性化推荐方法研究
这是一篇关于社交网络,推荐方法,协同过滤,幂律,局部敏感哈希的论文, 主要内容为本文聚焦于时下发展迅速的社交网络研究,针对大数据时代下社交网络研究的几个重要问题开展论文研究工作。社交网络是近年来最为流行和用户量最大的互联网应用,诸如国外的Facebook、Twitter和国内的新浪微博、微信朋友圈等,都拥有着亿级乃至数十亿级的用户群体,并且社交网络积累了海量的用户行为数据,这些人们通过社交网络的交流、分享所产生的行为数据对用户行为、信息传播、复杂网络、推荐系统等等领域的研究都有着重要的意义,涵盖了从管理学、社会科学到计算机科学技术的研究范围。本文立足于新浪微博的用户数据,针对大数据背景下带来的长尾推荐、数据稀疏性、数据维度灾难等问题开展研究工作。在社交网络数据中,幂律分布是数据的基本规律,幂律分布的长尾部分数据有明显的稀疏性,长尾推荐一直是推荐系统的挑战,而冷启动、数据稀疏和覆盖率这些问题也是推荐系统的重要研究内容。本文通过分析数据幂律分布的特性,在研究社交网络个性化推荐方法的基础上,结合社交网络用户行为数据反映出来的幂律分布特性,通过极大似然估计计算数据幂律分布的标度值。结合幂律特性改进了相似度计算方法,提出了一种基于幂律特性的混合推荐方法PowerLawCF(Collaboration Filter)。使用新浪微博的用户签到数据进行实验结果分析后,PowerLawCF算法的推荐效果有显著提升,提高了对于长尾推荐的效果,对推荐系统的数据稀疏性和冷启动问题有较好的解决。随着大数据时代的到来,数据维度灾难问题越来越显著,局部敏感哈希(Locality-Sensitive Hashing,LSH)在近年来成为研究者们关注的热点。文章通过对局部敏感哈希在KNN搜索计算上的高效表现,针对社交网络推荐构建合适的哈希函数族,并基于哈希结果进行用户分组,构建基于局部敏感哈希的个性化推荐方法,并通过数据实证分析证明推荐方法具有较好的推荐效果。本文通过对社交网络幂律特性、长尾推荐方法以及局部敏感哈希的应用研究,较好的解决了社交网络个性化推荐中的长尾推荐、数据稀疏性以及数据维度灾难问题,研究具有一定的理论和应用价值。
卷烟厂烘丝段设备维修方案推荐系统设计及实现
这是一篇关于烘丝段设备,局部敏感哈希,故障诊断,维修方案推荐,前后端分离系统的论文, 主要内容为在烟草工业中,烘丝是烟丝生产中最重要的一道加工工序,烘丝段设备能否稳定地运行对烟丝的品质具有决定性影响,因此对生产设备的及时维护变得尤为关键。目前,在卷烟生产中,主要是通过人工定期巡检的方式检查设备的运行状况,存在及时性差、效率低等缺点。同时伴随着生产设备集成化程度的不断提高,面对复杂的生产设备,维修人员由于个人技术水平上的差异,对同一个故障可能会采取不同的维修措施,在维修过程中缺乏相应的参考方案,存在维修不到位、维修效率低、过于依赖人工经验等缺点。为了提高烘丝段生产的稳定性和维修效率,保证烟丝的生产质量,本课题以实际工程项目为依托,研究了卷烟厂烘丝段设备故障诊断和维修方案推荐方法,最终开发了一套针对卷烟厂烘丝段设备的维修方案推荐系统,主要的工作如下:1、针对人工定期巡检及时性差、效率低等问题。通过对接烘丝段底层数据采集系统接口,基于Websocket协议和可视化技术实现对生产数据的实时监控。同时提出了一种基于模糊C均值聚类的局部敏感哈希算法并构建烘丝段设备故障诊断模型,实验结果表明,该模型对烘丝段设备进行故障诊断的平均准确率达90%以上(Top3检索下),较基于精确欧式局部敏感哈希算法的故障诊断模型提升了8.73%,实现了设备故障的自诊断,达到了项目的设计指标。2、针对维修人员在设备维修过程中缺乏方案参考的问题。基于卷烟厂烘丝段设备历史维修记录和领域专家经验构建推理规则库,使用概率软逻辑推理框架构建烘丝段设备维修方案推荐模型。当烘丝段设备发生故障时,该模型可根据烘丝段设备故障诊断模型所诊断的故障数据构建查询原子并基于概率软逻辑推理为维修人员进行方案推荐。通过NDCG(Normalized Discounted Cumulative Gain,NDCG)指标对该模型进行评估,实验结果表明,其NDCG平均值高于0.8,达到了项目的设计指标。3、根据实际项目需求,基于前后端分离开发的思想,使用Vue.js和Spring Boot等框架设计并实现了一套卷烟厂烘丝段设备维修方案推荐系统,实现对烘丝段设备的实时数据监控、故障诊断以及维修方案推荐等功能并通过相应的系统测试,满足了项目的设计要求。
基于幂律特性和局部敏感哈希的社交网络个性化推荐方法研究
这是一篇关于社交网络,推荐方法,协同过滤,幂律,局部敏感哈希的论文, 主要内容为本文聚焦于时下发展迅速的社交网络研究,针对大数据时代下社交网络研究的几个重要问题开展论文研究工作。社交网络是近年来最为流行和用户量最大的互联网应用,诸如国外的Facebook、Twitter和国内的新浪微博、微信朋友圈等,都拥有着亿级乃至数十亿级的用户群体,并且社交网络积累了海量的用户行为数据,这些人们通过社交网络的交流、分享所产生的行为数据对用户行为、信息传播、复杂网络、推荐系统等等领域的研究都有着重要的意义,涵盖了从管理学、社会科学到计算机科学技术的研究范围。本文立足于新浪微博的用户数据,针对大数据背景下带来的长尾推荐、数据稀疏性、数据维度灾难等问题开展研究工作。在社交网络数据中,幂律分布是数据的基本规律,幂律分布的长尾部分数据有明显的稀疏性,长尾推荐一直是推荐系统的挑战,而冷启动、数据稀疏和覆盖率这些问题也是推荐系统的重要研究内容。本文通过分析数据幂律分布的特性,在研究社交网络个性化推荐方法的基础上,结合社交网络用户行为数据反映出来的幂律分布特性,通过极大似然估计计算数据幂律分布的标度值。结合幂律特性改进了相似度计算方法,提出了一种基于幂律特性的混合推荐方法PowerLawCF(Collaboration Filter)。使用新浪微博的用户签到数据进行实验结果分析后,PowerLawCF算法的推荐效果有显著提升,提高了对于长尾推荐的效果,对推荐系统的数据稀疏性和冷启动问题有较好的解决。随着大数据时代的到来,数据维度灾难问题越来越显著,局部敏感哈希(Locality-Sensitive Hashing,LSH)在近年来成为研究者们关注的热点。文章通过对局部敏感哈希在KNN搜索计算上的高效表现,针对社交网络推荐构建合适的哈希函数族,并基于哈希结果进行用户分组,构建基于局部敏感哈希的个性化推荐方法,并通过数据实证分析证明推荐方法具有较好的推荐效果。本文通过对社交网络幂律特性、长尾推荐方法以及局部敏感哈希的应用研究,较好的解决了社交网络个性化推荐中的长尾推荐、数据稀疏性以及数据维度灾难问题,研究具有一定的理论和应用价值。
基于知识图谱的推荐方法研究及应用
这是一篇关于推荐系统,知识图谱,图嵌入,局部敏感哈希,张量分解的论文, 主要内容为随着云计算和互联网技术的发展,网络中信息数据呈爆发式增长,用户难以从海量数据中发现自己需要的信息。在此背景下推荐系统应运而生,然而传统的协同过滤推荐存在着冷启动、数据稀疏性等问题。为解决这些问题,本文针对推荐系统做了以下的研究工作:(1)提出了一种基于知识图谱的LSH-CF推荐算法,通过融入物品语义信息解决数据稀疏性问题,从而提高推荐准确率。此外为解决用户相似度计算中的大数据问题,采用局部敏感哈希技术降低计算的时间复杂度。首先,引入知识图谱模型来扩展物品语义。然后使用改进后的图嵌入算法提取物品语义并获取用户偏好特征。最后,提出了一种基于局部敏感哈希的协同过滤推荐方法来处理用户向量并生成推荐列表。通过对比实验分析,证明了该方法在准确率指标上优于传统的推荐方法,并且在长尾推荐方面具有良好的性能。(2)设计了一种将知识图谱与图神经网络以及用户个性化与张量分解相融合的混合推荐模型,并将其应用在电影个性化推荐系统中。首先,提出了一种图形结构的用户个性化网络,通过使用用户对电影的评分,导演、电影风格、演员等关系来描述用户、电影和其他实体。然后,通过学习他们自己的关系结构,使用基于随机游走的神经网络来生成用户个性化的矢量表示。最后,通过将这些用户个性化特征视为评分张量的第三维,基于动量随机梯度下降的张量分解可用于学习和预测用户对电影的评分,并把高分且未看过的电影推荐给用户。与多种基线推荐算法进行实验对比,证明了该推荐模型的有效性。
基于流式大数据的音乐推荐系统的设计与实现
这是一篇关于推荐系统,因子分解机,流式大数据,局部敏感哈希,向量化的论文, 主要内容为随着移动互联网的发展和智能设备的普及,各种网站、应用程序产生的数据量与日俱增,而数据的重要性也越来越高。为了能利用好这些数据,提取出用户的兴趣,挖掘出数据更深层次的价值,推荐系统应运而生。而传统的推荐算法模型,例如协同过滤、矩阵分解等算法在处理高维稀疏数据时的效果较差,泛化能力较弱,并且难以保证推荐的实时性,模型训练代价较高,无法直接运用于实际生产中。针对上述问题,基于流式大数据框架、近似近邻检索技术和因子分解机算法,设计并实现了一个音乐推荐系统。系统为用户提供了音乐信息浏览、收藏、评论、打分等业务功能,并推荐他们当前可能感兴趣的音乐。系统实现了两种不同场景的推荐功能,分别是相似内容的推荐和用户个性化的推荐。系统结合了B/S架构和流式大数据框架技术,通过Java服务端代码埋点收集用户行为数据,并使用消息队列Kafka存储用户行为数据,采用Flink等大数据框架对用户行为数据进行实时计算和传输。推荐算法中引入了自然语言处理中词向量化的思想,结合TF-IDF算法,对音乐的文本信息进行向量化,并使用Redis数据库存储音乐的向量;通过随机投影法实现了局部敏感哈希算法,应用于相似内容推荐和个性化推荐的召回阶段;最后,使用因子分解机算法对用户与音乐行为特征数据进行训练,计算出用户个性化推荐结果集,并将推荐结果推送给不同用户。音乐推荐系统具有良好的可扩展性和可维护性。系统基于随机投影法实现了局部敏感哈希算法,达到了快速的近似近邻搜索的目的;并结合流式大数据框架增强了推荐的实时性;实现了两种不同场景的推荐需求,提升了用户的体验。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设货栈 ,原文地址:https://bishedaima.com/lunwen/47856.html