基于多源异构数据的地方风土人情知识图谱构建方法及应用研究
这是一篇关于知识图谱,多源异构,三元组抽取,实体提及识别的论文, 主要内容为随着信息化与大数据时代的迅猛发展,人们在生活中所面临的信息也越加的纷繁复杂,但真正能有所帮助的信息十分有限,究其原因是因为这些信息没有针对性和规范性。有效的解决方法是将信息有所针对性的结构化处理。知识图谱(Knowledge Graph)因为在数据关联度和结构化方面的优势,受到越来越多的关注。目前知识图谱已经在多个领域得到应用,包括开放领域,以及医疗、教育、电影等垂直领域。风土人情,是一个地方特有的自然环境、风俗、礼节、习惯的总和,具有很高的人文和自然价值。但是针对该领域的知识图谱构建及应用还处于初步探索阶段,因此对于地方风土人情知识图谱的构建方法及应用的研究很有必要。传统的知识图谱构建方法的数据不够多源。而对于从文本中抽取实体关系三元组,传统的方法对于有重叠实体的三元组的抽取效果不理想。针对以上现状,本文围绕地方风土人情领域,对知识图谱的构建和应用给出一种解决方案,主要研究内容如下:(1)以内蒙古地区为例,构建内蒙古风土人情知识图谱。针对风土人情领域,在几种传统的垂直领域本体构建方法的基础上进行一些优化,使本体构建方法更适合于风土人情领域。在本体的约束下,基于多种来源、不同结构的数据,利用信息抽取技术,分别从中抽取出实体关系三元组,经知识融合后存入图数据库,完成内蒙古风土人情知识图谱的初步构建。(2)借鉴一种分层标注的方法,提出一种基于BERT-CRF的分层标注模型,从文本中联合抽取实体和关系。首先引入BERT对输入文本进行编码,并利用CRF标注出三元组的主语。在此基础上,针对每一种预定义的关系,采用半指针半标注方法,利用双指针标注出对应主语和关系下的宾语在文本中的首尾位置,进而将三元组完整抽取出。相较于原分层标注和传统的三元组抽取方法,三元组抽取效果有所改善。(3)基于一种管道式的知识图谱问答方法,对其实体提及识别模块进行改进,借鉴分层标注的三元组抽取中宾语的抽取思想,提出一种基于半指针半标注的实体提及识别方法,采用双指针从问句中标注出实体提及,识别效果和问答效果均有所提升。(4)基于内蒙古风土人情知识图谱和知识图谱问答方法,设计实现内蒙古风土人情问答平台,包括基于知识图谱的问答功能、知识图谱可视化和实体图片的展示功能,并允许用户提交三元组,以众包的方式更新知识图谱。
武器装备知识图谱构建研究
这是一篇关于武器装备知识图谱,BERT,同义词扩展,实体抽取,三元组抽取的论文, 主要内容为武器装备是衡量一个国家是否强大的指标。发展信息化武器装备,既是军事变革的基本内容,也是实现我军信息化建设目标的关键所在。知识图谱可以看作无数个实体关系的三元组构成,将世界上的知识链接起来组成一个巨大的图网络储存在计算机中,帮助人们在某种特定问题上做出正确的决策。本课题通过构建武器装备领域知识图谱,采集武器装备信息以及分析武器装备之间的关联,从而实现对军队综合战斗力的评估。构建武器装备知识图谱过程中,主要对武器装备实体抽取、武器装备实体三元组抽取以及武器装备知识图谱知识融合几方面进行研究。在武器装备的实体抽取方面,提出了领域BERT模型与嵌入字词向量及字转化率向量的BILSTM模型的融合模型对武器装备实体进行识别。首先,使用BERT模型在海量武器装备语料上进行预训练任务。其次,使用Word2vec模型训练字词向量提供先验语义信息,同时嵌入字转化率向量向模型输入更多的先验信息。最后通过分层实体提取器对不同类别的实体进行提取。实验证明,该模型编码能力强和先验知识充分,在环球军事网语料上F1值达到91.436%。在武器装备的实体关系三元组抽取方面,提出基于分层序列标注的实体关系三元组抽取模型(HSL)。HSL将实体关系三元组抽取任务转化为主语序列标注任务和宾语关系序列标注任务。首先,HSL采用带有残差链接的GLU膨胀卷积编码后生成中间向量,将中间向量经过Self Attention机制得出主语编码向量,解码出主语的标签序列抽取主语。其次,将主语作为先验特征和先前的中间向量再次经过Self Attention机制得出宾语编码向量。最后,采用代表不同主宾关系的全连接层提取出某个主宾关系的编码向量,解码出宾语的标签序列抽取出宾语。实验证明,HSL能有效的应对三元组重叠问题,并且效果超过了主流的实体关系三元组抽取模型,在军事语料数据集上F1值达到79.17%。在武器装备知识图谱知识融合方面,提出了一种基于Glove和Word2vec模型融合的同义词扩展方法。利用Glove模型和Word2vec模型对武器装备语料进行词向量训练,并通过欧式距离计算两个词向量的相似度得出同义词扩展结果,将两种模型的扩展结果取交集得出最终扩展结果。实验证明,该模型在同义词扩展方面是可行的,在38条武器装备属性同义词语料下F1值达到62.72%。同时,采用不同模型扩展出的同义词对武器装备知识图谱进行了属性融合对比,该模型融合属性次数最多,在武器装备知识融合方面效果较好。
基于图同构网络和指针生成网络的开放型三元组抽取研究
这是一篇关于知识图谱,三元组抽取,判别式,生成式,依存结构的论文, 主要内容为知识图谱是一种高度结构化的语义知识库,在语义检索、个性化推荐等领域有着广泛应用。三元组抽取作为知识图谱构建过程中至关重要的步骤,目的是从文本数据获取两个物理事实之间存在的客观联系。面向限定领域的三元组抽取方法需要预先定义所有实体和关系类型,使用机器学习或深度学习的方式在大规模数据集上训练分类模型。然而,在实际应用中实体和关系类型都会随着文本量的自然增长而增加,预先定义所有实体关系类型较为困难。对此,研究者们提出了开放型三元组抽取任务,尝试利用句型结构从句子中直接提取出三元组结果,使用句子上下文中某一具体词汇或短语来表示两个实体间的联系。依据方法类型,开放型三元组抽取可以区分为判别式方法和生成式方法。其中,判别式方法通过人工或迭代的方式提取模板,并使用模板对候选三元组进行匹配。然而,判别式三元组抽取方法存在泛化能力弱的问题,只能抽取已归纳出模板的句型结构。生成式方法将三元组看作是一个序列,以序列生成的方式实现三元组抽取。大多数生成式方法从语义理解的角度训练模型,然而句子中往往存在对句子理解没有帮助的语义信息,会对模型效果带来负面影响。同时,句子中的依存弧类型信息存在难以建模的问题,近年来研究者们对不同类型的依存弧进行了相同建模,忽略了依存弧类型信息。对此,本文的主要研究内容如下:(1)针对判别式方法泛化能力弱的问题,本文提出了基于图同构网络的判别式三元组抽取模型。首先,设计了图同构模块,用于提取句子中依存结构特征和部分语义特征,将模板和候选三元组的树结构转换为特征向量,实现模板匹配过程的可计算化。然后,构建了基于阈值判断的邻近算法,计算模板向量与候选向量之间的距离,进而判断候选三元组是否成立,使模型拥有更强的泛化能力。最后,本文使用该模型对大规模网络文本进行抽取,为生成式三元组抽取方法的研究提供高质量的数据集。在DuIE数据集上进行实验,该模型比CORE、UnCORE等基线模型在F1值上提高超过6%,证明了该模型具有较强的泛化能力。(2)针对生成式方法受部分无用词义影响和难以对依存弧类型建模的问题,本文提出了融合依存句法和指针生成网络的生成式三元组抽取模型。首先,根据词性结果对句子进行泛化处理,将句子中的专有名词替换为对应标签,去除无用词义的影响。然后,在词嵌入的过程中加入了词性信息,并使用键值记忆网络对句子依存结构中边的信息进行建模,帮助模型理解句子的结构特征。最后,利用指针生成网络迭代生成三元组结果,增加模型从输入中生成词汇的概率。在DuIE数据集和自制数据集上进行实验,该模型的精确率最高达到了79.76%,F1最高达到了67.52%,证明了该模型的有效性。(3)设计了一个知识图谱构建系统,实现自动化构建知识图谱的功能。通过爬虫定时获取大量网络数据,并将上述开放型三元组抽取工作应用到知识图谱自底向上的构建过程中,提供了知识图谱检索的功能。
基于多源异构数据的地方风土人情知识图谱构建方法及应用研究
这是一篇关于知识图谱,多源异构,三元组抽取,实体提及识别的论文, 主要内容为随着信息化与大数据时代的迅猛发展,人们在生活中所面临的信息也越加的纷繁复杂,但真正能有所帮助的信息十分有限,究其原因是因为这些信息没有针对性和规范性。有效的解决方法是将信息有所针对性的结构化处理。知识图谱(Knowledge Graph)因为在数据关联度和结构化方面的优势,受到越来越多的关注。目前知识图谱已经在多个领域得到应用,包括开放领域,以及医疗、教育、电影等垂直领域。风土人情,是一个地方特有的自然环境、风俗、礼节、习惯的总和,具有很高的人文和自然价值。但是针对该领域的知识图谱构建及应用还处于初步探索阶段,因此对于地方风土人情知识图谱的构建方法及应用的研究很有必要。传统的知识图谱构建方法的数据不够多源。而对于从文本中抽取实体关系三元组,传统的方法对于有重叠实体的三元组的抽取效果不理想。针对以上现状,本文围绕地方风土人情领域,对知识图谱的构建和应用给出一种解决方案,主要研究内容如下:(1)以内蒙古地区为例,构建内蒙古风土人情知识图谱。针对风土人情领域,在几种传统的垂直领域本体构建方法的基础上进行一些优化,使本体构建方法更适合于风土人情领域。在本体的约束下,基于多种来源、不同结构的数据,利用信息抽取技术,分别从中抽取出实体关系三元组,经知识融合后存入图数据库,完成内蒙古风土人情知识图谱的初步构建。(2)借鉴一种分层标注的方法,提出一种基于BERT-CRF的分层标注模型,从文本中联合抽取实体和关系。首先引入BERT对输入文本进行编码,并利用CRF标注出三元组的主语。在此基础上,针对每一种预定义的关系,采用半指针半标注方法,利用双指针标注出对应主语和关系下的宾语在文本中的首尾位置,进而将三元组完整抽取出。相较于原分层标注和传统的三元组抽取方法,三元组抽取效果有所改善。(3)基于一种管道式的知识图谱问答方法,对其实体提及识别模块进行改进,借鉴分层标注的三元组抽取中宾语的抽取思想,提出一种基于半指针半标注的实体提及识别方法,采用双指针从问句中标注出实体提及,识别效果和问答效果均有所提升。(4)基于内蒙古风土人情知识图谱和知识图谱问答方法,设计实现内蒙古风土人情问答平台,包括基于知识图谱的问答功能、知识图谱可视化和实体图片的展示功能,并允许用户提交三元组,以众包的方式更新知识图谱。
基于自然语言处理及知识图谱的搜索系统设计与实现
这是一篇关于搜索引擎,知识图谱,语义搜索,三元组抽取的论文, 主要内容为各企业在生产运营过程中会产生大量的数据,这些企业内部数据需要通过企业级数据治理平台来进行数据管理和数据搜索。而当前大多数企业级搜索引擎都是基于关键词匹配进行信息检索,无法形成与用户之间良好的交互,也无法理解用户输入的查询语句的意图。针对上述问题,本课题设计开发了基于自然语言处理技术及知识图谱的企业级搜索系统,能够一定程度上理解用户输入语句的语义,使搜索引擎实现知识层面的语义搜索。本文的主要研究工作和创新点如下:1.根据现有企业级搜索系统所存在问题和本系统的目标,从功能性和非功能性的角度对系统进行了全面需求分析。功能性方面,系统针对企业级数据需要实现数据处理、数据索引、知识图谱构建和信息检索;非功能性方面,系统需具有扩展性、稳定性、用户友好性等特性。对系统进行了总体架构设计,对系统的各个功能模块进行了详细的设计。2.对知识图谱构建方法进行了研究。制定了适于企业级数据的知识图谱构建方案,研究了三元组抽取方法。分别基于Bert-base预训练模型和Ro BERTa预训练模型进行了三元组抽取实验,并对结果进行了对比,基于Ro BERTa训练出的三元组抽取模型效果更优。本系统实现了基于Ro BERTa模型的三元组抽取方法,作为知识图谱构建的前置工作。围绕三元组抽取设计开发了知识管理功能,用于对数据进行打标、训练模型、数据审核、知识抽取及数据存储,进而实现知识图谱构建。3.对基于知识图谱的语义搜索方法进行了研究。首先研究了基于问句模板匹配的方法,并进行了设计与实现。接着研究了对此方法的改进,提出了“关系匹配”方法。介绍了此方法所用到的语义匹配技术和实现方式,对此方法与“问句模板匹配”方法进行了对比,并对此方法进行了实现。根据分析,本文提出的“关系匹配”方法更加容易获得用户的搜索意图。4.围绕对系统的需求分析,对系统进行了设计,并对系统的各个模块进行了具体的实现。基于三元组抽取方法,实现了将企业数据按类型或领域构建知识图谱的核心功能。通过知识图谱的语义表示能力,实现了本文提出的“关系匹配”方法,使系统一定程度上实现了对用户所输入的查询语句的意图识别,进而实现了基于知识图谱的语义搜索功能。
基于自然语言处理及知识图谱的搜索系统设计与实现
这是一篇关于搜索引擎,知识图谱,语义搜索,三元组抽取的论文, 主要内容为各企业在生产运营过程中会产生大量的数据,这些企业内部数据需要通过企业级数据治理平台来进行数据管理和数据搜索。而当前大多数企业级搜索引擎都是基于关键词匹配进行信息检索,无法形成与用户之间良好的交互,也无法理解用户输入的查询语句的意图。针对上述问题,本课题设计开发了基于自然语言处理技术及知识图谱的企业级搜索系统,能够一定程度上理解用户输入语句的语义,使搜索引擎实现知识层面的语义搜索。本文的主要研究工作和创新点如下:1.根据现有企业级搜索系统所存在问题和本系统的目标,从功能性和非功能性的角度对系统进行了全面需求分析。功能性方面,系统针对企业级数据需要实现数据处理、数据索引、知识图谱构建和信息检索;非功能性方面,系统需具有扩展性、稳定性、用户友好性等特性。对系统进行了总体架构设计,对系统的各个功能模块进行了详细的设计。2.对知识图谱构建方法进行了研究。制定了适于企业级数据的知识图谱构建方案,研究了三元组抽取方法。分别基于Bert-base预训练模型和Ro BERTa预训练模型进行了三元组抽取实验,并对结果进行了对比,基于Ro BERTa训练出的三元组抽取模型效果更优。本系统实现了基于Ro BERTa模型的三元组抽取方法,作为知识图谱构建的前置工作。围绕三元组抽取设计开发了知识管理功能,用于对数据进行打标、训练模型、数据审核、知识抽取及数据存储,进而实现知识图谱构建。3.对基于知识图谱的语义搜索方法进行了研究。首先研究了基于问句模板匹配的方法,并进行了设计与实现。接着研究了对此方法的改进,提出了“关系匹配”方法。介绍了此方法所用到的语义匹配技术和实现方式,对此方法与“问句模板匹配”方法进行了对比,并对此方法进行了实现。根据分析,本文提出的“关系匹配”方法更加容易获得用户的搜索意图。4.围绕对系统的需求分析,对系统进行了设计,并对系统的各个模块进行了具体的实现。基于三元组抽取方法,实现了将企业数据按类型或领域构建知识图谱的核心功能。通过知识图谱的语义表示能力,实现了本文提出的“关系匹配”方法,使系统一定程度上实现了对用户所输入的查询语句的意图识别,进而实现了基于知识图谱的语义搜索功能。
电力变压器知识图谱自动构建技术研究
这是一篇关于中文分词,专业词库构建,三元组抽取,变压器知识图谱,知识嵌入表示的论文, 主要内容为知识图谱具备动态性、空间性、关联性、知识依赖性四个特点,不仅可以通过可视化模型将知识以有向图的形式直观地呈现出来,获取它们之间的关系,还能够通过计算机的搜索功能,在极短的时间内完成对海量知识信息的精准查找,并对其进行统计分析。电力变压器在电力系统中是进行能量转化和传输的重要设备,也是其中一种最为复杂且昂贵的设备,构建电力变压器知识图谱能够对电力变压器相关知识进行高效组织,实现知识存储、智能搜索、辅助决策等功能。本文具体针对油浸式变压器,研究电力变压器知识图谱自动构建技术,构建变压器知识图谱,实现对变压器相关知识的智能查询和关联搜索,为建立变压器的智能运维系统提供基础。论文基于统计语言模型的中文文本自动分词算法原理,建立互信息统计模型,分别读取专业语料和普通的非专业语料,得到各自建立出的词表。由于通过以上无监督分词模型得到的分词结果中包含一些非相关专业词汇以及一些不需要的非词成分,因此采用优化算法,增加左右熵乘积作为评价标准进行词语聚合,再与非专业语料的分词结果进行对比得到电力相关的专业词库,实现了电力专业词库的自动构建。三元组抽取之前的分词过程中,利用已构建的电力专业词库词汇作为实体抽取结果并增加分词时准确性和专业性;采取字词混合Embedding与位置Embedding相结合的向量编码方式,将语义和位置信息融入到向量编码中,通过基于膨胀门卷积神经网络结合自注意力机制的三元组抽取模型,最终抽取得到具有正确实体对应关系的三元组集合。抽取得到电力变压器相关三元组集合后,选择Neo4j图数据库对构建的电力变压器知识图谱进行存储并实现其可视化;基于py2neo库实现对变压器相关知识的智能查询和关联搜索;利用基于Trans R算法的知识嵌入技术,实现了电力变压器故障分析推理、处理措施查询的功能。
基于深度学习的知识抽取模型研究
这是一篇关于深度学习,知识抽取,命名实体识别,关系分类,三元组抽取的论文, 主要内容为搜索引擎以及社交网络为人们提供了海量文本信息,但是这些数据的存在形式一般都是非结构化的,难以直接利用其中蕴含的丰富知识。因此,如何从这些非结构化文本中将结构化的知识有效抽取出来,成为当前重要的研究任务。命名实体和三元组都是结构化知识的重要组成部分,有关命名实体识别、关系分类以及三元组抽取任务获取了广泛关注,这三个任务都是知识抽取中的重要环节,知识图谱的构建与这些任务密切相关。尽管当前对命名实体识别、关系分类以及三元组抽取的研究已经取得了许多成果,但仍然有以下问题尚未解决:(1)命名实体识别模型大多以条件随机场作为解码器来生成预测标签序列,但是在模型训练时条件随机场的收敛速度慢,需要消耗大量时间。此外,语言模型会对一些语法角色相近的词指定类似的嵌入,而这会导致生成的词向量表示难以准确表达出单词实际的含义,直接影响模型的性能。(2)现有关系分类模型大多都单独使用预训练语言模型以生成表示或者单独使用图神经网络以学习表征,较少将两种方法相结合以预测实体间的关系。(3)现有的许多三元组抽取方法使用单个模型联合抽取实体和关系,无法有效地对重叠三元组进行抽取,也就是说,一个句子所包含的多个三元组之间有相同的实体,这将导致模型难以学习或者根本无法准确学习到实体之间的关系。深度学习在自然语言处理任务中发挥着重要作用,因此针对以上问题,本文的工作将基于深度学习从以下三个方面开展。(1)针对条件随机场训练速度慢以及生成的词向量质量不高的问题,本文构建了一种基于指针标注的命名实体识别模型(PT-NER),使用BERT和BiGRU获取上下文特征,再通过指针标注对命名实体的边界进行预测,来取代条件随机场作为解码器,以减少训练时间,同时对BERT的输入表示加上扰动,利用对抗训练来提升词向量的质量。本文实验在Resume、CLUENER2020这两个数据集上进行,实验结果证明,PT-NER模型能提升训练速度,且运用对抗训练能进一步提升模型的性能。(2)针对现有关系分类模型较少将基于预训练语言模型的方法和基于图神经网络的方法相结合的问题,本文提出了一种结合预训练语言模型BERT和图注意力网络的关系分类模型(GAT-RC),利用BERT获得词向量,再基于BiLSTM来获得上下文表示,同时将预定义的关系映射为高维向量,再将单词和关系建模为节点,通过图注意力网络来对单词节点表示与关系节点表示进行更新,将头实体和尾实体的表示以及关系节点表示进行拼接后,通过MLP进行关系分类。本文实验在SemEval2010 task8、Re-TACRED这两个数据集上进行,实验证明,GAT-RC模型较基线模型具有更好的性能,能有效实现关系分类。(3)针对多数三元组抽取模型无法有效抽取出重叠三元组的问题,本文基于前面两章的模型PT-NER和GAT-RC,提出了一种融合图注意力网络与指针标注的三元组抽取模型(GAT-PT-RTE),使用BERT、多头注意力机制和图注意力网络来获取关系表示和句子表示,学习到更适合于三元组抽取任务的表示,先利用指针标注来预测头实体,再在特定关系下预测对应的尾实体,并在此基础上加入对抗训练来提升模型的性能,以此进行重叠三元组的有效抽取。本文在WebNLG和NYT这两个数据集上开展了系列实验,结果表明,GAT-PT-RTE能比基线方法更有效进行三元组抽取,而且能有效对重叠的三元组进行识别。综上,本文构建了命名实体识别模型PT-NER、关系分类模型GAT-RC以及三元组抽取模型GAT-PT-RTE,同时在这三个任务上与基线方法相比都获得了更好的效果。不依赖于任何NLP工具,本文提出的模型能推广到更多的知识抽取场景中,对开展相关研究具有参考意义。
基于web数据的碳交易领域知识图谱构建研究
这是一篇关于知识图谱,三元组抽取,实体识别,关系抽取,关联数据的论文, 主要内容为知识图谱作为具有强大语义处理能力和开放组织能力的新兴技术手段,是当前的研究热点之一。根据知识覆盖面不同可以将知识图谱分为通用领域知识图谱和垂直领域知识图谱。目前知识图谱的研究主要集中在通用领域,面向垂直领域的研究工作较少。近年来我国碳交易市场发展迅速,大量异构多源的数据迫切需要一个有效的整合方法,传统的信息集成方法无法从知识的角度对数据进行管理,为此,本文提出构建碳交易领域的知识图谱,以便从web数据中整合碳交易领域的知识。本文的研究重点主要集中在知识图谱的知识获取方面,提出一种构建碳交易领域知识图谱的技术框架,主要研究内容及成果如下:首先,针对碳交易领域数据多源异构、分散自治的特点,通过构建数据获取器,从网络资源中自动收集碳交易领域的相关数据。其次,针对不同结构的数据,提出不同的知识抽取方法。对于百科站点中的半结构化数据,通过构建web数据包装器从中获取知识。对于碳交易领域垂直站点中的非结构化文本数据,将其知识抽取分为实体识别和关系抽取两部分。在实体识别阶段,研究了Bi LSTM-CRF网络训练模型识别句子中的实体,其平均准确率达到90%以上;在关系抽取阶段,研究了依存句法分析模式匹配的方法获取实体之间的关系,提出一种基于标注数据的模式生成方法,实验结果显示该方法能够有效地抽取实体之间的关系。对于国家技术标准网站的行业标准和技术规范文件,通过构建规则提取其中的行业知识。最后,将获取到的三元组知识整合并转化为关联数据的形式,在此基础上构建知识查询模块。同时,通过图数据库Neo4j实现知识可视化展现。实验结果表明,本文提出的知识图谱构建方法,能够有效地从不同结构的数据中获取三元组知识,且在很大程度上减少人工参与;基于知识图谱的知识查询和可视化展现,能够为碳交易领域的知识服务提供帮助。
基于多源异构数据的企业知识图谱的构建与应用
这是一篇关于知识图谱,深度学习,三元组抽取,异构数据融合,数据可视化的论文, 主要内容为随着大数据时代的到来,人工智能技术驱动着各行各业向数字化和智能化方向发展。知识图谱是人工智能的重要分支,它能够阐述客观世界中概念和实体以及它们之间的关系,通过构建一个庞大的知识网络,赋予机器在通用或特定领域的认知智能。目前,知识图谱已经在金融、司法、教育、医疗等领域得到广泛的应用。资产管理公司主要经营不良资产的管理和处置工作,在对资产进行估值的过程中需要对企业进行调研。面对海量的企业相关的结构化或非结构化数据,知识图谱提供了一种高效的数据管理和检索方式,企业知识图谱能够整合多源的企业信息并存储于图数据库中,直观地呈现企业、人员之间的关联关系。本文依托于某资产管理公司,旨在结合公司内部的企业工商数据和互联网中的文本数据来构建企业知识图谱。同时在图谱基础上搭建可视化系统,帮助业务人员更加高效地提炼企业相关信息,进行企业风险预测、关联企业分析等工作。本文的主要工作如下:一、通过网页新闻爬虫和数据平台接口获取了大量企业相关舆情新闻和股权公告,并对特定几类关系的数据进行人工标注。根据这些数据,实现并改进CASREL模型作为实体关系联合抽取模型,解决了非结构化金融文本中的关系三元组的自动化抽取问题。二、基于公司内部结构化的企业工商数据,以及从非结构化的文本数据中提取出的企业实体关系三元组信息,设计数据的融合和更新流程,自顶向下地构建多源异构的企业知识图谱,并将图谱数据存储于Tigergraph图数据库中。三、结合公司在不良资产管理领域的业务需求,进行企业知识图谱系统的需求分析与概要设计,采用Springboot和Vue框架开发系统并完成测试。系统提供了企业基本信息查询、新闻实体关系抽取,企业单点图谱查询、企业担保链图谱查询等功能。
基于自然语言处理及知识图谱的搜索系统设计与实现
这是一篇关于搜索引擎,知识图谱,语义搜索,三元组抽取的论文, 主要内容为各企业在生产运营过程中会产生大量的数据,这些企业内部数据需要通过企业级数据治理平台来进行数据管理和数据搜索。而当前大多数企业级搜索引擎都是基于关键词匹配进行信息检索,无法形成与用户之间良好的交互,也无法理解用户输入的查询语句的意图。针对上述问题,本课题设计开发了基于自然语言处理技术及知识图谱的企业级搜索系统,能够一定程度上理解用户输入语句的语义,使搜索引擎实现知识层面的语义搜索。本文的主要研究工作和创新点如下:1.根据现有企业级搜索系统所存在问题和本系统的目标,从功能性和非功能性的角度对系统进行了全面需求分析。功能性方面,系统针对企业级数据需要实现数据处理、数据索引、知识图谱构建和信息检索;非功能性方面,系统需具有扩展性、稳定性、用户友好性等特性。对系统进行了总体架构设计,对系统的各个功能模块进行了详细的设计。2.对知识图谱构建方法进行了研究。制定了适于企业级数据的知识图谱构建方案,研究了三元组抽取方法。分别基于Bert-base预训练模型和Ro BERTa预训练模型进行了三元组抽取实验,并对结果进行了对比,基于Ro BERTa训练出的三元组抽取模型效果更优。本系统实现了基于Ro BERTa模型的三元组抽取方法,作为知识图谱构建的前置工作。围绕三元组抽取设计开发了知识管理功能,用于对数据进行打标、训练模型、数据审核、知识抽取及数据存储,进而实现知识图谱构建。3.对基于知识图谱的语义搜索方法进行了研究。首先研究了基于问句模板匹配的方法,并进行了设计与实现。接着研究了对此方法的改进,提出了“关系匹配”方法。介绍了此方法所用到的语义匹配技术和实现方式,对此方法与“问句模板匹配”方法进行了对比,并对此方法进行了实现。根据分析,本文提出的“关系匹配”方法更加容易获得用户的搜索意图。4.围绕对系统的需求分析,对系统进行了设计,并对系统的各个模块进行了具体的实现。基于三元组抽取方法,实现了将企业数据按类型或领域构建知识图谱的核心功能。通过知识图谱的语义表示能力,实现了本文提出的“关系匹配”方法,使系统一定程度上实现了对用户所输入的查询语句的意图识别,进而实现了基于知识图谱的语义搜索功能。
基于多源异构数据的企业知识图谱的构建与应用
这是一篇关于知识图谱,深度学习,三元组抽取,异构数据融合,数据可视化的论文, 主要内容为随着大数据时代的到来,人工智能技术驱动着各行各业向数字化和智能化方向发展。知识图谱是人工智能的重要分支,它能够阐述客观世界中概念和实体以及它们之间的关系,通过构建一个庞大的知识网络,赋予机器在通用或特定领域的认知智能。目前,知识图谱已经在金融、司法、教育、医疗等领域得到广泛的应用。资产管理公司主要经营不良资产的管理和处置工作,在对资产进行估值的过程中需要对企业进行调研。面对海量的企业相关的结构化或非结构化数据,知识图谱提供了一种高效的数据管理和检索方式,企业知识图谱能够整合多源的企业信息并存储于图数据库中,直观地呈现企业、人员之间的关联关系。本文依托于某资产管理公司,旨在结合公司内部的企业工商数据和互联网中的文本数据来构建企业知识图谱。同时在图谱基础上搭建可视化系统,帮助业务人员更加高效地提炼企业相关信息,进行企业风险预测、关联企业分析等工作。本文的主要工作如下:一、通过网页新闻爬虫和数据平台接口获取了大量企业相关舆情新闻和股权公告,并对特定几类关系的数据进行人工标注。根据这些数据,实现并改进CASREL模型作为实体关系联合抽取模型,解决了非结构化金融文本中的关系三元组的自动化抽取问题。二、基于公司内部结构化的企业工商数据,以及从非结构化的文本数据中提取出的企业实体关系三元组信息,设计数据的融合和更新流程,自顶向下地构建多源异构的企业知识图谱,并将图谱数据存储于Tigergraph图数据库中。三、结合公司在不良资产管理领域的业务需求,进行企业知识图谱系统的需求分析与概要设计,采用Springboot和Vue框架开发系统并完成测试。系统提供了企业基本信息查询、新闻实体关系抽取,企业单点图谱查询、企业担保链图谱查询等功能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码驿站 ,原文地址:https://bishedaima.com/lunwen/50126.html