基于图表示的共词网络分析
这是一篇关于表示学习,共词网络,图神经网络,关系提取的论文, 主要内容为随着互联网的快速发展,大学术数据迅速增长,为科学发现和技术创新在世界范围内的传播提供了技术基础。然而,随着数据量的不断增多,如何从学术数据中挖掘有用的信息成为一个关键问题。共词网络作为一种基于文章关键词构建的网络,可以为学术数据挖掘提供有效的数据支撑。图表示学习通过学习图结构和图属性,可以解决数据无法表示的问题,为数据的后续处理提供良好的数据特征表示。基于图表示学习的共词网络分析可以从一个含有丰富信息的图中提取有用的知识,构建面向学术数据的知识图谱,从而为挖掘和探索技术演化趋势提供有效的参考依据。本文针对基于图表示学习的共词网络分析进行研究,所做的主要研究工作和创新包括:(1)针对共词网络中关键词之间的关系提取问题进行研究,提出了一种基于图神经网络的共词网络关键词关系提取算法(HGCN-IHC-REC),该算法不过度依赖语义,且可以捕捉图全局结构,对关键词进行关系提取。实验结果表明,HGCN-IHC-REC算法与其他基准算法相比,具有更准确的关系提取率。(2)考虑到共词网络的动态性,提出了一种基于动态图表示学习的共词网络关键词演化学习算法(DGR-ELC),基于实验对关键词演化趋势做了预测和分析,验证了 DGR-ELC算法的有效性。
基于本体的餐饮O2O智能推荐方法研究
这是一篇关于本体,关系提取,知识图谱,餐饮推荐,餐饮O2O的论文, 主要内容为饮食是人类生存和发展的基本条件之一,也是人们日常生活中经常讨论的话题。随着我国经济水平的日益提升,人民的生活水平的不断提髙,人们的餐饮习惯也开始发生变化。为了提髙人们的生活质量,引导和改善人们的不良餐饮习惯,就需要进行科学合理的健康餐饮。同时健康餐饮不仅有利于保持身体健康,也能预防减少慢性疾病的发生。但互联网上可获得的健康饮食信息正在迅速增长,并且分布在多个来源上,用户通过互联网数据了解健康饮食非常耗时,用户需要在多个平台上搜索数据,选择和整合信息。因此,当前需要有一个整合多种健康饮食领域数据源的健康餐饮推荐系统来为人们提供有效的健康饮食知识以及健康餐饮推荐。本文的主要研究如下:首先,研究了基于本体的餐饮推荐知识模型。引入中医体质学的相关知识,以本体论的方法构建出健康餐饮领域的本体概念模型,形成餐饮本体的规范化表示,使得餐饮方面的相关知识易于重构和重用,并且便于知识的扩展和知识图谱的构建,为健康饮食推荐服务提供知识基础。其次,研究了文本数据中的本体关系提取方法。在Bi-LSTM模型的基础上加入注意力机制,进行文本数据中实体之间的关系类型识别,通过实验对模型的性能进行分析,验证模型在关系类型提取中的有效性。再次,研究了多源数据驱动的健康餐饮知识图谱构建,通过爬虫技术从多个数据源获取知识,并从文本数据中提出实体关系对知识进行进一步地扩充,实现不同类型的数据整合,建立了健康餐饮领域的知识图谱,形成知识的统一管理。最后,研究了餐饮O2O的推荐模型,利用健康餐饮领域的知识图谱作为推理规则库的基础,通过建立健康餐饮领域语义推理规则以及推理优化,从而提供基于知识的餐饮推荐。将推荐模型应用于餐饮O2O平台,对餐饮O2O平台系统进行了设计以及实现,为餐饮O2O平台的运营者提供参考,具有一定的应用价值。
面向教育的中文知识图谱自动构建技术研究
这是一篇关于知识图谱,教材,PowerPoint演示文稿,知识点提取,关系提取的论文, 主要内容为知识图谱在教育领域的广泛应用,使得对基于教育数据自动构建知识图谱的需求越来越迫切。针对现有的教育类中文知识图谱构建的技术中知识点易遗漏、知识点关系准确率不高、需要人工干预等挑战性问题,本文提出了教育领域的中文知识图谱的自动构建技术,旨在提高自动生成教育类中文知识图谱的精度。本文包括以下三部分研究内容:(1)研究了基于计算机领域教学课本自动生成知识图谱技术(命名为KG-T技术),KG-T技术通过自动提取教学课本中关键知识点及关键知识点间的先后顺序,生成基于课本的知识图谱;(2)研究了基于教学类Power Point演示文稿的知识图谱自动生成技术(命名为KG-S技术),并在KG-S技术的基础上提出了LSTM模型的简化模型。KG-S技术利用了教学类Power Point演示文稿具有的层次结构清晰的特点,将知识点提取和关系提取两个关键步骤合并进行,首次基于教育领域的中文Power Point演示文稿构建出具有先决关系的知识图谱;LSTM简化模型使得基于Power Point演示文稿的知识图谱自动生成技术对计算机性能的要求降低,进而使得KG-S技术具有更好的的应用普适性。本文使用真实数据集实现了通过Power Point演示文稿层次关系提取知识点间先后顺序、设置知识点间权重调整影响系数等步骤,生成基于Power Point演示文稿的知识图谱;(3)研究了对基于教学课本生成知识图谱的校正技术(命名为KG-T&S技术)。KG-T&S技术通过使用基于教学类Power Point演示文稿生成的三元组对基于课本生成的知识图谱进行校正,提升现有知识图谱的准确度。真实数据集上的实验结果表明:本文所提出的KG-T&S技术实现了对KG-T技术生成的教育领域知识图谱的优化,优化后知识图谱准确率达到90%以上。面向教育的中文知识图谱自动构建是值得深入研究的问题,具有重要的理论意义和应用价值。本文研究了基于计算机领域教材的知识图谱自动生成技术、基于Power Point演示文稿的知识图谱自动生成技术以及对基于教材自动生成知识图谱的校正技术,并基于真实教育数据集的实验验证了本文提出的面向教育的中文知识图谱自动生成的各个关键技术的有效性。
油气勘探开发文档的语义分析及提取方法的研究与实现
这是一篇关于油气勘探开发文档,信息提取,命名实体识别,关系提取的论文, 主要内容为知识图谱技术的推广与应用,给相关领域带来了新的研究方向与挑战。目前油气勘探开发领域的知识图谱正处于起步阶段,需要大量该领域的知识提供支持,这些知识主要来源于油气勘探开发文档,然而还没有一套完善的方法和系统,能自动地从这些文档中提取知识。如何从非结构化的文档中大规模地自动提取知识已经成为研究油气勘探开发知识图谱的首要任务(知识主要指油气勘探开发领域的实体和关系)。为了准确地提取油气勘探开发领域的知识,本文从三个方面研究了油气勘探开发文档的语义分析及提取方法,分别是油气勘探开发文档的信息提取、油气勘探开发文档的命名实体识别以及油气勘探开发文档的实体关系提取。其中,在文档的信息提取部分设计了一种基于规则和SVM相结合的文档信息提取方法,并通过对比实验证明了该方法的效果;在文档的命名实体识别部分,针对油气勘探开发领域的特点,编制出合适的规则和词典去优化机器学习训练的命名实体识别模型,更好地提升了油气勘探开发领域命名实体识别的效果;在文档的实体关系提取部分,采用模式和远监督相结合的关系提取方法,有效地提取了大量的油气勘探开发领域的实体关系。通过对三部分研究的整合,提出并实现了油气勘探开发文档的语义分析及提取方法。实验表明,该方法能够较好地从油气勘探开发文档中自动提取大量的油气勘探开发知识。
档案知识图谱构建技术研究
这是一篇关于知识图谱,档案信息化,实体识别,关系提取,知识融合的论文, 主要内容为随着计算机信息技术的发展,档案数据的类型由单一的结构化数据变得多样化,档案数据规模也显著增长。本文针对档案知识图谱构建技术进行研究,旨在通过改变档案数据的存储方式和档案资源的使用方式,为档案数字信息化提供一种新的思路。论文依据档案概念模型理论标准,提出采用七步法构建档案本体,分析了档案知识图谱的专业领域范围,同时定义了档案实体类型和实体之间的层级关系。在完成档案本体构建分析之后,论文对档案实体识别模块进行了架构设计,并提出了两种档案实体识别算法来实现档案实体知识的抽取。然后通过实验对两种档案实体识别算法进行了质量评估,得出结论基于LSTM网络的实体识别算法相比基于规则匹配的实体识别算法具有更高的正确率。在完成实体识别工作之后,论文提出采用基于实体词性的关系抽取算法和基于依存句法分析的关系抽取算法对档案实体之间的关系进行抽取。最后通过实验对两种档案关系抽取算法进行了质量评估,得出结论基于依存句法分析的关系抽取算法的正确率要高于基于实体词性的关系抽取算法。为了解决档案知识图谱中知识重复的问题,论文对档案知识融合模块进行了架构设计,并提出通过建立分区索引,减小知识融合的工作量。在论证了属性权重向量的相似度与实体相似度具有相关性之后,作者在此基础上提出了两种成对实体对齐方法,之后进一步分析了集体知识融合技术。并通过实验对四种实体对齐算法进行了质量评估,得出结论成对的实体对齐算法效果优于集体实体对齐算法。本文从本体构建、知识抽取、知识融合三个方面对档案知识图谱构建技术进行了深入研究。后续将继续考虑如何进行档案知识推理,进一步丰富和扩充档案知识图谱。
基于实体对标注的关系三元组提取方法研究
这是一篇关于关系提取,二维实体对标注,关系过滤器,知识图谱,关系三元组的论文, 主要内容为知识图谱自提出以来就受到了众多学者的关注,经过多年的研究和发展,现在它已经成为人工智能研究和智能信息技术的基础和核心。作为一种知识表示形式,知识图谱正在医疗、金融和教育等领域发挥着越来越重要的作用,它正在推动着人类社会从数据智能化向知识智能化发展。作为知识图谱应用的前提,知识图谱构建是一项具有挑战性的工作。目前构建知识图谱大多需要人工干预,这会耗费大量的人力和时间,所以许多研究者开始致力于知识图谱的自动构建。自然语言是最常见的知识表示形式,如何从自然语言中提取出关系三元组是实现知识图谱自动构建的关键。关系三元组提取是信息提取的核心子任务,它旨在从自然语言文本中联合提取出主实体和客实体以及它们之间的关系。关系三元组提取是一项重要且具有挑战性的自然语言处理任务。随着自然语言处理技术的发展,关系三元组提取的性能也得到很大的提升。目前主流的关系三元组提取方法是基于序列标注的,相比之前的研究,这类方法取得了很大的进步,同时也面临着一些问题,主要是错误传播问题和各种实体重叠问题。为了解决上述问题,本文探索基于实体对标注的关系三元组提取方法,主要工作包括以下两个方面:(1)本文提出了基于二维标注的实体对识别方法(2DEPT),能够有效解决错误传播问题和各种实体重叠问题。这种方法为每一种关系维持一个矩阵,并在每一个矩阵中通过Biaffine注意力机制实现相应关系下的单词对分类,解码所有关系对应的矩阵即可获得输入文本中包含的关系三元组。为了验证2DEPT的性能,我们在两个开放的数据集NYT和Web NLG上进行实验,实验的结果显示2DEPT模型在所有的F1值上都达到了最优的结果,总体上获得了比对比模型更好的性能。另外,复杂情况下的实验结果也证明了2DEPT模型确实能够有效地处理错误传播问题和各种实体重叠情况,表现出了良好的稳定性。(2)2DEPT是一种面向所有关系进行实体对识别的方法,这种方法可能存在冗余关系问题。为了解决冗余关系问题,本文对2DEPT进行改进,提出了基于关系过滤和实体对标注的关系三元组提取方法(RF2DTagging),这种方法能够提高关系三元组提取的效率,避免计算资源的浪费。RF2DTagging首先使用关系过滤器过滤出置信关系,然后根据置信关系识别出相应的实体对。与2DEPT的对比实验结果表明RF2DTagging虽然在性能上有所下降,但是在效率上却获得了很大的提升,这对于延迟敏感的业务具有重要的参考价值。除此之外,我们还在三个开放的中文数据集CCKS2019-Task3,CMe IE和Du IE2.0上进行实验,实验结果显示对于三个数据集上的所有评估标准RF2DTagging几乎都获得了最优的表现,证明了RF2DTagging对于跨语言关系三元组提取任务的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码驿站 ,原文地址:https://bishedaima.com/lunwen/49252.html