电子商务推荐系统的研究与实现
这是一篇关于推荐系统,协同过滤,语义关联模型,用户偏好,RDF的论文, 主要内容为随着电子商务应用的不断扩大,个性化服务也得到越来越多的重视,大量的商务软件产品都声称支持个性化。电子商务推荐系统是智能信息服务的体现,它能够在了解用户的短期和长期需求的基础上对用户定制信息的搜索和发送机制,并向用户有针对性的推荐商品。现有的推荐方法暴露出数据稀疏性问题,冷开始问题以及推荐质量低下等问题,这些问题使得当前的普通推荐系统不能准确的挖掘用户的兴趣,并将其最感兴趣的商品提供给用户。 本文提出一种集成语义信息的新型推荐方法,该方法提出建立商品的语义关联模型,该模型的结构通过一个行业语义信息训练中心的训练得到,最终产品的语义信息被提取出来集成到现有的基于项目的协同过滤方法中。该方法利用了协同过滤技术的利用其他用户的行为来提高信息的广度和精确度的特点,同时融合了语义过滤技术深层挖掘用户隐含兴趣的优点。本文利用RDF形式的本体来表达商品信息以及用户偏好信息,并设计了一种基于决策树的用户语义偏好模型,该模型基于商品行业离线建立,在线应用,定期更新,增强了推荐系统的实时性能。 在上述工作的基础上,设计和开发了集成语义信息的电子商务推荐系统。该系统基于B/S模式,为客户和系统管理员提供了一系列的浏览和操作。结果显示该系统的集成语义推荐比已有的各种推荐系统更加符合现实世界中的个性化推荐,它能够深层次挖掘用户兴趣迎合用户偏好,很大程度上克服了推荐质量低下的问题。
RDF数据存储与查询技术研究
这是一篇关于RDF,SPARQL,Spark,语义网,查询优化的论文, 主要内容为随着语义网、知识图谱的快速发展,资源描述框架(RDF)作为其数据表示形式,数据量呈现出迅速增长的趋势。鉴于数据量的爆炸式增长,分布式处理为管理RDF数据提供了一个丰富的平台。分布式存储与查询展现出高吞吐量、并行化、高拓展、高可用的优势。但在处理包含多个连接操作的RDF查询时,分布式环境存在着性能挑战,例如网络数据混洗,计算内存开销等。因此设计RDF数据分布式划分存储方法与查询优化算法,对提高RDF在分布式环境下的查询效率具有重要的意义。基于此,本课题针对分布式RDF数据在存储和查询中存在的问题进行了深入的研究,提出了新型的数据划分方法来划分存储RDF数据,以及利用多个优化策略来设计查询计划生成算法,并在此基础上设计了一种基于Spark的分布式RDF数据存储与查询框架。本文的研究内容主要包括以下几点:(1)考虑到大规模RDF数据存储空间浪费以及计算内存开销大等问题,提出了一种基于垂直划分的RDF数据划分方法。在垂直划分的基础上对谓词为rdf:type的三元组进一步划分,然后再做一步连接操作,最终形成类索引、关系索引以及类-关系索引。该方法可以减小磁盘空间使用量,精细的数据划分可以减少计算内存开销以及加快索引相关数据的速度。(2)面对在分布式环境下RDF数据查询面临的网络开销、查询响应慢等问题,本文通过解析SPARQL语句来减少查询语句中的三元组模式个数,减少三元组模式匹配产生的中间结果数量,减少迭代连接的循环次数。另外匹配三元组模式时统计结果规模信息来设计查询计划生成算法,用来约定三元组模式匹配结果的连接顺序,减少冗余数据的产生。此外采用广播变量方法用于中间结果迭代连接过程中,减少节点间的通信开销,加快RDF数据查询的响应时间。(3)基于以上研究内容,设计一种基于Spark的分布式RDF数据存储与查询框架。在构建的原型系统后,采用LUBM和Wat Div两个综合基准数据集以及标准SPARQL查询语句进行评估系统的性能。此外,通过将本文系统与Hadoop RDF、SPARQLGX两个系统进行对比试验,证实了本文系统具有更好的查询性能。
基于知识库与云平台的海量数据存储与查询设计与实现
这是一篇关于RDF,存储,查询,HBase云平台,并行计算的论文, 主要内容为在互联网飞速发展的时代背景下,数据规模正在飞速增长,这些数据主要来自不同数据源的异构数据。知识图谱在信息搜索领域的成功应用促进了异构数据的融合,存储和查询的研究。本体使用唯一标识符对互联网上的资源进行标记,并可以在资源之上添加自身属性和资源之间的关系属性,具有较大的灵活性和可扩展性。随着语义web的兴起,经过几十年的发展,本体被广泛应用于异构数据的表达,被公认为是一种有效的解决方案。近年来,在计算机领域,涌现出很多基于本体对数据进行管理和应用的相关研究。传统的存储方法将不同类目的信息存储在不同的表中,导致搜索结果单一,无法满足用户需求。随着网络规模和多源数据量的增加,传统的数据库存储方案和单机环境难以支持海量数据的存储与查询。因此,越来越多的云平台与分布式系统的解决方案被应用到数据存储与查询领域。虽然基于分布式系统的研究尚不成熟,但很有研究意义与发展前景。本文基于云平台Hadoop和非关系型数据库HBase,研究海量异构数据的融合,存储和查询。主要工作如下:1.首先,作为后续分布式存储与查询的基础,实现了多源异构数据的融合。本文通过并行化计算框架MapReduce实现并行化本体构建与融合。在构建过程中,将不同源的数据分别构建为类别单一的本体。在融合过程中,对不同源的数据进行融合,生成类别和语义丰富的本体。2.随着数据爆炸式增长,传统的存储方法在导入性能和对单机存储硬件需求这两方面的瓶颈日益凸显。参考近年的分布式RDF数据存储方案,本文综合考虑存储空间及后续对查询的响应速度这两个因素,设计了基于HBase的存储模型。3.在HBase存储模型之上,分别设计了三元组模式查询,基本图模式查询和关键词查询的查询策略。三元组模式查询是基本图模式查询的基础,它的响应速度由两方面决定:数据库的表设计,数据库本身的索引性能。此外,通过分析复杂基本图模式查询的结构规律,提出了基于连接操作的优化方法。关键词查询的研究意义在于提升查询引擎的易用性,本文提出的关键词搜索方法利用了基本图模式查询的研究成果,达到较好的性能。通过在LUBM数据集上进行试验,验证了策略的有效性和高效性。
面向RDF图查询系统的内存结构优化研究
这是一篇关于RDF,图查询系统,内存图存储,数据压缩的论文, 主要内容为资源描述框架(RDF)作为表示和记载图结构数据的技术规范之一,被广泛应用于知识图谱、社交网络、金融风控等场景。用户使用RDF图查询系统进行信息检索,发掘图数据集中特定的信息。随着人类进入大数据时代,实际场景中的图数据集正变得日益庞大。海量数据给RDF图查询系统带来了存储效率上的挑战:如何在保障系统性能的前提下提升系统的存储效率,用更少的空间存储更多的RDF图数据,降低系统运行的硬件成本,成为学界和工业界日益关注的问题,具有重要的现实意义。然而,此前的工作大多集中于解决RDF图查询系统的性能问题,缺乏对于系统存储结构优化的关注。传统的数据压缩方法,将对系统性能产生严重负面影响,无法直接应用于RDF图查询系统场景。因此,有必要针对RDF图查询系统的特点,对其内存图存储结构优化进行研究。本文提出了一种面向RDF图查询系统的高效内存图存储。该高效图存储从结构性优化和编码优化两个方向出发,提出了五项优化技术,提升了RDF内存图存储的存储效率。首先,针对键值图存储中数据头存在的边信息冗余,本文提出了基于边信息的段式键值图存储结构,将键值图存储从逻辑上划分为多个独立的分段,并将数据按照边的类型存储在不同的分段中,从而缩短了数据头中键的长度,消除了记录同种边带来的额外空间开销。第二,针对RDF数据集中大量存在单值数据项的特点,本文提出了选择性键值分离技术,对于包含多个值的数据项采用键值分离存储,而对于单值数据项则直接存储在数据头中,从而提升了系统的存储效率。第三,针对值空间中存在的重复数据项,本文提出了值存储高效去重技术。通过数据指纹,实现了数据项冗余的快速初筛。利用段式图存储的语义特征,将去重扫描的范围限制在分段内,大大减少了去重的计算量,并使得各分段能够充分并行执行去重,高效地消除了值空间的冗余。最后,针对RDF数据项中值的局部性和连续性等特征,本文提出了增量变长编码压缩和区间变长编码压缩两项优化技术,极大地降低了值存储的空间开销。本文还提出了分级编码压缩机制,根据不同数据类型的访问频率,将数据分为多个编码级别,使得用户得以在存储效率和系统性能之间达到更好的平衡。本文以目前已知性能领先、最具代表性的RDF图查询系统Wukong作为基线,基于Wukong进行了高效内存图存储的实现。实验和评测结果显示,相比于基线系统,本文提出的高效内存图存储能够节约高达50%的内存空间,并且对查询性能的影响非常轻微。
基于公共资源交易领域的知识图谱构建和可视化系统设计
这是一篇关于公共资源,知识图谱,RDF,可视化,辅助决策的论文, 主要内容为我国信息化建设经过多年的发展,已经取得了一定的成就,党的十九大更是指出进一步发展数字信息化的工作,公共资源交易作为信息化的重要组成部分,对政府工作、市场公平竞争都起着重要的作用。随着公共资源交易数据大量增长,其背后数据之间复杂的关系以及大量离散的信息,使得数据没有充分的利用。为了更加充分的利用数据,合理配置资源,辅助政府决策,对公共资源交易数据的分析处理有着更深的现实意义。通过构建公共资源交易领域的知识图谱挖掘数据中潜在的关系,并形成一个知识网络,在此基础上进行可视化展示,可以将数据资源的作用最大化,更好的服务政府工作,构建一个公平的市场竞争环境。以公共资源交易数据为核心,建立知识图谱,打破由于传统数据存储媒介的限制,让一直以来独享、分裂、离散、种类复杂的数据形成知识网络,提供更精准的服务。例如多维度的分析招投标人的能力、分析交易中不同材料的价格走势、以及用户投标金额的合理性、对公共资源交易主体行为起到监控作用等。针对上述情况本文主要工作如下:1.本文中针对公共资源交易数据中数据结构多、项目繁杂、品类众多,涉及的主体有招标方、投标方、专家组等,招投标环节比较繁琐,中间数据冗余度高、联系度高等特点,详细的梳理了公共资源交易数据的特性和结构。并对本文中涉及的主体信息数据和招投标过程中的相关数据进行了详细的分析和介绍。2.通过公共资源交易过程中所涉及的关键流程和相关的数据进行分析,从领域数据中抽取并设计本体模型。同时,设计知识抽取框架和关键流程,并对关键技术进行了详细的分析和介绍。通过Jena将本体模型生成OWL文件,并通过OWL将数据实例化成RDF文件。最后将知识化后的数据存储在图数据库Neo4j中。3.由于知识图谱构建的过程中,涉及了大量的数据实体节点,以及节点和节点之间的关联规则关系,导致抽取过程中计算效率低下的问题。本文改进了一种基于权值向量矩阵约简的Apriori算法。该方法从数据集合中选择一个子集作为挖掘对象,并对集合中元素赋予权值。将数据信息用布尔矩阵表示,在运算过程中不断约简矩阵结构,提高了频繁项集的生成效率。测试结果表明,该方法利用权值的引入和矩阵约简思想,大大提高了关联规则计算的效率。4.基于上述构建公共资源交易领域的知识图谱,并利用可视化技术,将数据进行可视化的展示。根据软件工程的思想,进行了需求分析、总体设计、详细设计、系统开发和系统测试。
电子商务推荐系统的研究与实现
这是一篇关于推荐系统,协同过滤,语义关联模型,用户偏好,RDF的论文, 主要内容为随着电子商务应用的不断扩大,个性化服务也得到越来越多的重视,大量的商务软件产品都声称支持个性化。电子商务推荐系统是智能信息服务的体现,它能够在了解用户的短期和长期需求的基础上对用户定制信息的搜索和发送机制,并向用户有针对性的推荐商品。现有的推荐方法暴露出数据稀疏性问题,冷开始问题以及推荐质量低下等问题,这些问题使得当前的普通推荐系统不能准确的挖掘用户的兴趣,并将其最感兴趣的商品提供给用户。 本文提出一种集成语义信息的新型推荐方法,该方法提出建立商品的语义关联模型,该模型的结构通过一个行业语义信息训练中心的训练得到,最终产品的语义信息被提取出来集成到现有的基于项目的协同过滤方法中。该方法利用了协同过滤技术的利用其他用户的行为来提高信息的广度和精确度的特点,同时融合了语义过滤技术深层挖掘用户隐含兴趣的优点。本文利用RDF形式的本体来表达商品信息以及用户偏好信息,并设计了一种基于决策树的用户语义偏好模型,该模型基于商品行业离线建立,在线应用,定期更新,增强了推荐系统的实时性能。 在上述工作的基础上,设计和开发了集成语义信息的电子商务推荐系统。该系统基于B/S模式,为客户和系统管理员提供了一系列的浏览和操作。结果显示该系统的集成语义推荐比已有的各种推荐系统更加符合现实世界中的个性化推荐,它能够深层次挖掘用户兴趣迎合用户偏好,很大程度上克服了推荐质量低下的问题。
RDF数据存储与查询技术研究
这是一篇关于RDF,SPARQL,Spark,语义网,查询优化的论文, 主要内容为随着语义网、知识图谱的快速发展,资源描述框架(RDF)作为其数据表示形式,数据量呈现出迅速增长的趋势。鉴于数据量的爆炸式增长,分布式处理为管理RDF数据提供了一个丰富的平台。分布式存储与查询展现出高吞吐量、并行化、高拓展、高可用的优势。但在处理包含多个连接操作的RDF查询时,分布式环境存在着性能挑战,例如网络数据混洗,计算内存开销等。因此设计RDF数据分布式划分存储方法与查询优化算法,对提高RDF在分布式环境下的查询效率具有重要的意义。基于此,本课题针对分布式RDF数据在存储和查询中存在的问题进行了深入的研究,提出了新型的数据划分方法来划分存储RDF数据,以及利用多个优化策略来设计查询计划生成算法,并在此基础上设计了一种基于Spark的分布式RDF数据存储与查询框架。本文的研究内容主要包括以下几点:(1)考虑到大规模RDF数据存储空间浪费以及计算内存开销大等问题,提出了一种基于垂直划分的RDF数据划分方法。在垂直划分的基础上对谓词为rdf:type的三元组进一步划分,然后再做一步连接操作,最终形成类索引、关系索引以及类-关系索引。该方法可以减小磁盘空间使用量,精细的数据划分可以减少计算内存开销以及加快索引相关数据的速度。(2)面对在分布式环境下RDF数据查询面临的网络开销、查询响应慢等问题,本文通过解析SPARQL语句来减少查询语句中的三元组模式个数,减少三元组模式匹配产生的中间结果数量,减少迭代连接的循环次数。另外匹配三元组模式时统计结果规模信息来设计查询计划生成算法,用来约定三元组模式匹配结果的连接顺序,减少冗余数据的产生。此外采用广播变量方法用于中间结果迭代连接过程中,减少节点间的通信开销,加快RDF数据查询的响应时间。(3)基于以上研究内容,设计一种基于Spark的分布式RDF数据存储与查询框架。在构建的原型系统后,采用LUBM和Wat Div两个综合基准数据集以及标准SPARQL查询语句进行评估系统的性能。此外,通过将本文系统与Hadoop RDF、SPARQLGX两个系统进行对比试验,证实了本文系统具有更好的查询性能。
基于本体的政治学科知识图谱构建及其知识检索研究
这是一篇关于本体,知识图谱,爬虫,RDF,知识检索,SPARQL的论文, 主要内容为随着计算机相关技术的发展,大数据和人工智能的应用为我们的学习和生活带来了很多的便利。作为人工智能领域的一个分支,知识图谱也迎来了快速的发展。知识图谱是将客观世界中的知识表示成计算机能够处理的知识,并且将各个知识关联起来,形成一个语义网络。随着“互联网+”的发展,教育领域也越来越重视知识的信息化,将书本知识转换成机器可理解的知识是一个发展趋势。知识图谱可以通过相关技术将知识重新表示来增强知识间的逻辑性和关联性,可以实现对领域内知识的智能检索问答。知识图谱还可以对相关知识按照一定的规则进行逻辑推理,让数据变成有意义和有价值的知识。本文运用知识图谱的相关技术,在初高中政治学科领域对构建政治学科知识图谱及其知识检索进行了研究。本文根据对相关技术的研究分析,完成了政治学科领域知识图谱的构建,并且实现了对相关政治问题的智能检索问答,经过对知识检索机制的优化改进使得检索的准确率有一定的提升。本文主要工作包括:1)本文通过对本体建模的研究,构建了政治学科本体模型,通过对电子化书本的标注完成了政治核心知识库的构建,运用爬虫技术实现了对外源数据的扩充,最后对所有知识按照特定的表示形式存储入库,形成了政治学科知识库。2)本文提出了知识检索机制,主要针对政治学科领域内一些问答检索,通过构建属性模板和自定义词典的方式实现了基本的知识检索,针对知识检索中出现的一些错检和漏检的情况,本文运用添加备选模板和备选关键词等一些方式实现了对知识检索机制的改进优化。3)本文对知识图谱构建和知识检索机制进行了相应的展示和实验分析。对构建完成的政治学科知识图谱进行展示,完成了知识图谱的可视化,可以比较清晰直观的看到各知识点之间的关联和相应的属性。对知识检索进行了相应的实验测试分析,得出知识检索的优化改进可以提高知识检索的正确率。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://bishedaima.com/lunwen/49224.html