基于本体的政治学科知识图谱构建及其知识检索研究
这是一篇关于本体,知识图谱,爬虫,RDF,知识检索,SPARQL的论文, 主要内容为随着计算机相关技术的发展,大数据和人工智能的应用为我们的学习和生活带来了很多的便利。作为人工智能领域的一个分支,知识图谱也迎来了快速的发展。知识图谱是将客观世界中的知识表示成计算机能够处理的知识,并且将各个知识关联起来,形成一个语义网络。随着“互联网+”的发展,教育领域也越来越重视知识的信息化,将书本知识转换成机器可理解的知识是一个发展趋势。知识图谱可以通过相关技术将知识重新表示来增强知识间的逻辑性和关联性,可以实现对领域内知识的智能检索问答。知识图谱还可以对相关知识按照一定的规则进行逻辑推理,让数据变成有意义和有价值的知识。本文运用知识图谱的相关技术,在初高中政治学科领域对构建政治学科知识图谱及其知识检索进行了研究。本文根据对相关技术的研究分析,完成了政治学科领域知识图谱的构建,并且实现了对相关政治问题的智能检索问答,经过对知识检索机制的优化改进使得检索的准确率有一定的提升。本文主要工作包括:1)本文通过对本体建模的研究,构建了政治学科本体模型,通过对电子化书本的标注完成了政治核心知识库的构建,运用爬虫技术实现了对外源数据的扩充,最后对所有知识按照特定的表示形式存储入库,形成了政治学科知识库。2)本文提出了知识检索机制,主要针对政治学科领域内一些问答检索,通过构建属性模板和自定义词典的方式实现了基本的知识检索,针对知识检索中出现的一些错检和漏检的情况,本文运用添加备选模板和备选关键词等一些方式实现了对知识检索机制的改进优化。3)本文对知识图谱构建和知识检索机制进行了相应的展示和实验分析。对构建完成的政治学科知识图谱进行展示,完成了知识图谱的可视化,可以比较清晰直观的看到各知识点之间的关联和相应的属性。对知识检索进行了相应的实验测试分析,得出知识检索的优化改进可以提高知识检索的正确率。
基于图的大规模RDF数据查询算法研究
这是一篇关于RDF查询,SPARQL,子图同态,近似子图匹配的论文, 主要内容为资源描述框架(Resource Description Framework,RDF)可以表达丰富的语义信息,被广泛地应用于知识图谱的元数据描述之中。随着语义网信息抽取技术的发展,单个RDF数据集已经达到数十亿三元组的规模。SPARQL是万维网联盟针对RDF数据查询提出的标准查询语言,基于SPARQL的RDF查询问题可以转化为子图同态问题,该问题是一个NP完全问题。此外,对于包含噪声的SPARQL查询,基于子图同态的精确查询方法无法得出答案,如何在合理时间范围内返回用户满意的Top-k查询结果,成为普通用户最为关心的一个问题。因此,如何高效地在大规模RDF数据上执行SPARQL查询是知识图谱数据管理中的一个有挑战性的问题。针对以上问题,本文做了如下工作:1)针对无噪声的SPARQL查询,提出一种按照约束大小排序的查询图节点匹配策略,在此基础上给出一种基于树搜索的RDF查询算法RI-Triples。该策略在匹配过程中提前引入更多约束以修剪不匹配的分支,从而避免了使用复杂的预测剪枝规则,有效地减少了搜索空间并提高了查询效率。在LUBM6M,LUBM13M和LUBM33M数据集上,RI-Triples的总查询时间分别为g Store的0.59,0.54和0.74倍,RDF-3X的0.24,027和0.34倍。在Wat Div10M数据集上,对于雪花查询,RI-Triples的总查询时间分别为g Store的0.028倍,RDF-3X的0.24倍。实验结果表明RI-Triples具有良好的查询性能。2)针对无噪声的复杂SPARQL查询和包含噪声的SPARQL查询,采用一种统计显著性方法对查询图节点及其候选节点的结构、邻居节点标签等属性进行相似性评估,从而给出一种基于邻居向量的RDF Top-k查询算法NBRQ。该算法在扩展匹配过程中充分考虑候选节点的h-hop邻居节点,以提高查询结果的相似性。实验采用LUBM5M数据集,在无噪声的复杂SPARQL查询中,当变量节点的比例为5%~27%时,NBRQ算法F1分数得分范围为95.90%~82.40%;在包含噪声的SPARQL查询中,当噪声的比例为14%~33%时,NBRQ算法F1分数得分范围为95.70%~90.30%。实验结果表明NBRQ算法对于包含噪声的SPARQL查询具有内在的鲁棒性,能有效处理大规模RDF数据近似查询问题。
基于图的大规模RDF数据查询算法研究
这是一篇关于RDF查询,SPARQL,子图同态,近似子图匹配的论文, 主要内容为资源描述框架(Resource Description Framework,RDF)可以表达丰富的语义信息,被广泛地应用于知识图谱的元数据描述之中。随着语义网信息抽取技术的发展,单个RDF数据集已经达到数十亿三元组的规模。SPARQL是万维网联盟针对RDF数据查询提出的标准查询语言,基于SPARQL的RDF查询问题可以转化为子图同态问题,该问题是一个NP完全问题。此外,对于包含噪声的SPARQL查询,基于子图同态的精确查询方法无法得出答案,如何在合理时间范围内返回用户满意的Top-k查询结果,成为普通用户最为关心的一个问题。因此,如何高效地在大规模RDF数据上执行SPARQL查询是知识图谱数据管理中的一个有挑战性的问题。针对以上问题,本文做了如下工作:1)针对无噪声的SPARQL查询,提出一种按照约束大小排序的查询图节点匹配策略,在此基础上给出一种基于树搜索的RDF查询算法RI-Triples。该策略在匹配过程中提前引入更多约束以修剪不匹配的分支,从而避免了使用复杂的预测剪枝规则,有效地减少了搜索空间并提高了查询效率。在LUBM6M,LUBM13M和LUBM33M数据集上,RI-Triples的总查询时间分别为g Store的0.59,0.54和0.74倍,RDF-3X的0.24,027和0.34倍。在Wat Div10M数据集上,对于雪花查询,RI-Triples的总查询时间分别为g Store的0.028倍,RDF-3X的0.24倍。实验结果表明RI-Triples具有良好的查询性能。2)针对无噪声的复杂SPARQL查询和包含噪声的SPARQL查询,采用一种统计显著性方法对查询图节点及其候选节点的结构、邻居节点标签等属性进行相似性评估,从而给出一种基于邻居向量的RDF Top-k查询算法NBRQ。该算法在扩展匹配过程中充分考虑候选节点的h-hop邻居节点,以提高查询结果的相似性。实验采用LUBM5M数据集,在无噪声的复杂SPARQL查询中,当变量节点的比例为5%~27%时,NBRQ算法F1分数得分范围为95.90%~82.40%;在包含噪声的SPARQL查询中,当噪声的比例为14%~33%时,NBRQ算法F1分数得分范围为95.70%~90.30%。实验结果表明NBRQ算法对于包含噪声的SPARQL查询具有内在的鲁棒性,能有效处理大规模RDF数据近似查询问题。
基于知识图谱的中文自动问答技术研究
这是一篇关于问答系统,KBQA,知识图谱,SPARQL的论文, 主要内容为近年来,随着自然语言处理技术的飞速发展,问答系统成为当前主流搜索引擎的一个不可或缺的功能。基于知识库的问答系统(Question Answering over Knowledge Base,KBQA)以知识图谱为知识源,通过将用户的自然语言问题转换为SPARQL结构化查询语言查询知识图谱并向用户返回结果。但是,目前中文知识图谱的资源相对匮乏,主流中文知识图谱存在数据类型未标注、三元组的客体未进行实体链接和分类体系不完整等问题,因而难以支持复杂的SPARQL查询,为中文KBQA的应用带来了困难。为改善这种状况,本文从以下几个方面开展了研究:1、对现有的中文知识图谱资源进行分析,重点分析了它们在支持复杂SPARQL查询方面存在的不足。然后基于分析结果,提出了一种通过中文知识图谱的融合来使知识图谱支持复杂SPARQL查询的方法。最后对融合后的知识图谱进行了评估。实验结果表明,融合后的知识图谱可以支持复杂SPARQL查询,有效改善了当前主流中文知识图谱中存在的问题。2、针对KBQA系统中事实型问题问答的一类基础问题——单实体关系问题展开研究,提出基于条件随机场(Conditional Random Fields,CRF)的中心实体识别方法和词向量与字符串相似度计算相结合谓词映射方法。实验结果表明,单实体关系问题的中心实体识别准确率和F1分数分别达到了89.14%和88.81%。问题谓词映射的准确率和MRR分别达到了93.41%和95.97%。3、本文基于融合得到的知识图谱开发了能够回答涉及单个实体关系问题的中文KBQA原型系统。在NLPCC 2016的KBQA数据集上的抽样测试结果表明,本文构造的中文KBQA原型系统整体正确率84.10%,MRR达到了86.29%。通过中心实体识别和问句谓词映射这两个重要的步骤,本文构建的KBQA原型系统能够以较高准确率回答中文的单实体关系问题。但是由于相关数据集的匮乏,目前系统不能回答复杂的事实型问题,这类问题的分析是将是下一步的研究工作。
基于本体的政治学科知识图谱构建及其知识检索研究
这是一篇关于本体,知识图谱,爬虫,RDF,知识检索,SPARQL的论文, 主要内容为随着计算机相关技术的发展,大数据和人工智能的应用为我们的学习和生活带来了很多的便利。作为人工智能领域的一个分支,知识图谱也迎来了快速的发展。知识图谱是将客观世界中的知识表示成计算机能够处理的知识,并且将各个知识关联起来,形成一个语义网络。随着“互联网+”的发展,教育领域也越来越重视知识的信息化,将书本知识转换成机器可理解的知识是一个发展趋势。知识图谱可以通过相关技术将知识重新表示来增强知识间的逻辑性和关联性,可以实现对领域内知识的智能检索问答。知识图谱还可以对相关知识按照一定的规则进行逻辑推理,让数据变成有意义和有价值的知识。本文运用知识图谱的相关技术,在初高中政治学科领域对构建政治学科知识图谱及其知识检索进行了研究。本文根据对相关技术的研究分析,完成了政治学科领域知识图谱的构建,并且实现了对相关政治问题的智能检索问答,经过对知识检索机制的优化改进使得检索的准确率有一定的提升。本文主要工作包括:1)本文通过对本体建模的研究,构建了政治学科本体模型,通过对电子化书本的标注完成了政治核心知识库的构建,运用爬虫技术实现了对外源数据的扩充,最后对所有知识按照特定的表示形式存储入库,形成了政治学科知识库。2)本文提出了知识检索机制,主要针对政治学科领域内一些问答检索,通过构建属性模板和自定义词典的方式实现了基本的知识检索,针对知识检索中出现的一些错检和漏检的情况,本文运用添加备选模板和备选关键词等一些方式实现了对知识检索机制的改进优化。3)本文对知识图谱构建和知识检索机制进行了相应的展示和实验分析。对构建完成的政治学科知识图谱进行展示,完成了知识图谱的可视化,可以比较清晰直观的看到各知识点之间的关联和相应的属性。对知识检索进行了相应的实验测试分析,得出知识检索的优化改进可以提高知识检索的正确率。
基于本体的政治学科知识图谱构建及其知识检索研究
这是一篇关于本体,知识图谱,爬虫,RDF,知识检索,SPARQL的论文, 主要内容为随着计算机相关技术的发展,大数据和人工智能的应用为我们的学习和生活带来了很多的便利。作为人工智能领域的一个分支,知识图谱也迎来了快速的发展。知识图谱是将客观世界中的知识表示成计算机能够处理的知识,并且将各个知识关联起来,形成一个语义网络。随着“互联网+”的发展,教育领域也越来越重视知识的信息化,将书本知识转换成机器可理解的知识是一个发展趋势。知识图谱可以通过相关技术将知识重新表示来增强知识间的逻辑性和关联性,可以实现对领域内知识的智能检索问答。知识图谱还可以对相关知识按照一定的规则进行逻辑推理,让数据变成有意义和有价值的知识。本文运用知识图谱的相关技术,在初高中政治学科领域对构建政治学科知识图谱及其知识检索进行了研究。本文根据对相关技术的研究分析,完成了政治学科领域知识图谱的构建,并且实现了对相关政治问题的智能检索问答,经过对知识检索机制的优化改进使得检索的准确率有一定的提升。本文主要工作包括:1)本文通过对本体建模的研究,构建了政治学科本体模型,通过对电子化书本的标注完成了政治核心知识库的构建,运用爬虫技术实现了对外源数据的扩充,最后对所有知识按照特定的表示形式存储入库,形成了政治学科知识库。2)本文提出了知识检索机制,主要针对政治学科领域内一些问答检索,通过构建属性模板和自定义词典的方式实现了基本的知识检索,针对知识检索中出现的一些错检和漏检的情况,本文运用添加备选模板和备选关键词等一些方式实现了对知识检索机制的改进优化。3)本文对知识图谱构建和知识检索机制进行了相应的展示和实验分析。对构建完成的政治学科知识图谱进行展示,完成了知识图谱的可视化,可以比较清晰直观的看到各知识点之间的关联和相应的属性。对知识检索进行了相应的实验测试分析,得出知识检索的优化改进可以提高知识检索的正确率。
基于本体的政治学科知识图谱构建及其知识检索研究
这是一篇关于本体,知识图谱,爬虫,RDF,知识检索,SPARQL的论文, 主要内容为随着计算机相关技术的发展,大数据和人工智能的应用为我们的学习和生活带来了很多的便利。作为人工智能领域的一个分支,知识图谱也迎来了快速的发展。知识图谱是将客观世界中的知识表示成计算机能够处理的知识,并且将各个知识关联起来,形成一个语义网络。随着“互联网+”的发展,教育领域也越来越重视知识的信息化,将书本知识转换成机器可理解的知识是一个发展趋势。知识图谱可以通过相关技术将知识重新表示来增强知识间的逻辑性和关联性,可以实现对领域内知识的智能检索问答。知识图谱还可以对相关知识按照一定的规则进行逻辑推理,让数据变成有意义和有价值的知识。本文运用知识图谱的相关技术,在初高中政治学科领域对构建政治学科知识图谱及其知识检索进行了研究。本文根据对相关技术的研究分析,完成了政治学科领域知识图谱的构建,并且实现了对相关政治问题的智能检索问答,经过对知识检索机制的优化改进使得检索的准确率有一定的提升。本文主要工作包括:1)本文通过对本体建模的研究,构建了政治学科本体模型,通过对电子化书本的标注完成了政治核心知识库的构建,运用爬虫技术实现了对外源数据的扩充,最后对所有知识按照特定的表示形式存储入库,形成了政治学科知识库。2)本文提出了知识检索机制,主要针对政治学科领域内一些问答检索,通过构建属性模板和自定义词典的方式实现了基本的知识检索,针对知识检索中出现的一些错检和漏检的情况,本文运用添加备选模板和备选关键词等一些方式实现了对知识检索机制的改进优化。3)本文对知识图谱构建和知识检索机制进行了相应的展示和实验分析。对构建完成的政治学科知识图谱进行展示,完成了知识图谱的可视化,可以比较清晰直观的看到各知识点之间的关联和相应的属性。对知识检索进行了相应的实验测试分析,得出知识检索的优化改进可以提高知识检索的正确率。
基于知识图谱的中文自动问答技术研究
这是一篇关于问答系统,KBQA,知识图谱,SPARQL的论文, 主要内容为近年来,随着自然语言处理技术的飞速发展,问答系统成为当前主流搜索引擎的一个不可或缺的功能。基于知识库的问答系统(Question Answering over Knowledge Base,KBQA)以知识图谱为知识源,通过将用户的自然语言问题转换为SPARQL结构化查询语言查询知识图谱并向用户返回结果。但是,目前中文知识图谱的资源相对匮乏,主流中文知识图谱存在数据类型未标注、三元组的客体未进行实体链接和分类体系不完整等问题,因而难以支持复杂的SPARQL查询,为中文KBQA的应用带来了困难。为改善这种状况,本文从以下几个方面开展了研究:1、对现有的中文知识图谱资源进行分析,重点分析了它们在支持复杂SPARQL查询方面存在的不足。然后基于分析结果,提出了一种通过中文知识图谱的融合来使知识图谱支持复杂SPARQL查询的方法。最后对融合后的知识图谱进行了评估。实验结果表明,融合后的知识图谱可以支持复杂SPARQL查询,有效改善了当前主流中文知识图谱中存在的问题。2、针对KBQA系统中事实型问题问答的一类基础问题——单实体关系问题展开研究,提出基于条件随机场(Conditional Random Fields,CRF)的中心实体识别方法和词向量与字符串相似度计算相结合谓词映射方法。实验结果表明,单实体关系问题的中心实体识别准确率和F1分数分别达到了89.14%和88.81%。问题谓词映射的准确率和MRR分别达到了93.41%和95.97%。3、本文基于融合得到的知识图谱开发了能够回答涉及单个实体关系问题的中文KBQA原型系统。在NLPCC 2016的KBQA数据集上的抽样测试结果表明,本文构造的中文KBQA原型系统整体正确率84.10%,MRR达到了86.29%。通过中心实体识别和问句谓词映射这两个重要的步骤,本文构建的KBQA原型系统能够以较高准确率回答中文的单实体关系问题。但是由于相关数据集的匮乏,目前系统不能回答复杂的事实型问题,这类问题的分析是将是下一步的研究工作。
自适应的RDF分布式处理方法
这是一篇关于RDF,自适应,SPARQL,分布式的论文, 主要内容为知识图谱近年来得到了广泛应用和扩展,其标准数据模型RDF图数据表现出的复杂性、稀疏性和多样性,造成了RDF处理引擎在存储和查询过程的复杂性,进而导致查询响应的低效性。目前大部分引擎对常见RDF数据特征进行固定模式的处理,无法体现出灵活性。因此研究自适应的RDF处理方法对知识图谱数据处理具有重要意义。本文设计并实现了自适应的RDF处理方法,从存储和SPARQL查询两个方面来提升RDF数据处理的性能。首先,本文基于RDF数据在图上的局部聚集性定义了数据模式的概念,在数据模式和统计数据的基础上,通过启发式集合覆盖的方法将谓语划分为星模式集合。其中,基于正态分布的方法被用来选择启发式方法的初始值,并且谓语中属性与关系的分离也用来优化划分过程。其次,考虑到星模式查询在连接(Join)过程中对主语的限定,提出了基于广度优先的SPARQL查询分解和生成计划的算法,通过减少Join时输入数据的大小和生成的中间结果来提升查询性能。最后,针对SPARQL查询面临的三元组模式越来越多、构成的查询图越来越复杂的现状,本文提出了基于反向意识的查询优化,避免了树形查询计划生成过程中过剪枝的问题。为了验证上述存储和查询算法的效率,本文在分布式环境下与同类基于关系的Hadoop/Spark的引擎进行了比较。实验结果表明,在标准测试数据集Wat Div和真实数据集YAGO上,本文的存储表现出较短的耗时和极大的压缩比,查询性能相比其他引擎加速比可达75.6倍,达到了针对不同RDF数据自适应的处理目的。综上所述,本文利用RDF数据的特性设计了一种自适应的RDF处理方法。在存储方面,应用集合覆盖思想达到了良好的存储性能;在查询方面,本文基于广度优先与反向意识,对查询执行过程进行了优化,为RDF数据的高效且自适应处理提供了一个新的解决方案。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://bishedaima.com/lunwen/56267.html