医疗知识图谱构建与应用
这是一篇关于医疗领域,知识图谱,属性抽取,词向量,知识图谱融合的论文, 主要内容为近几年,互联网相关技术飞速发展,人们的生活方式也在随着技术的发展而改变着。医疗健康问题始终是人们生活中最关心的问题之一,自然而然,互联网上关于医疗健康方面的网站越来越多,医疗信息也越来越丰富。另一方面,随着电子设备的发展,很多医院记录患者信息的方式也从传统的纸质病历,更新为用计算机系统来存储电子病历。各式各样的信息显得繁多复杂,人们想从长篇大论的医疗信息中获取自己真正需要的信息反而变得困难。知识图谱的提出为知识的管理形式提供了一种优秀的解决方案。医疗领域知识专业又复杂,如果能够用知识图谱的形式将医疗领域信息组织起来,这对于医疗知识的进一步应用是有极大帮助的。医疗领域知识图谱的构建是人们迫切想要解决的问题,然而医疗领域知识的专业性为知识图谱的构建带来了很多不便。首先,包含医疗专业知识的标注数据并不多,没有足够的数据可供直接利用,包含医疗专业知识的未标注数据较多,但又没有充分利用起来;其次,医疗领域中某些词语在医学概念上的含义与通用领域不同,直接将通用领域迁移到医疗领域效果并不好;另外,大多知识图谱相关研究侧重于实体与实体之间的关系,然而对于医疗来说,医疗属性的属性值在分析病情时有着重要的作用,融入属性信息的知识才更完整。本课题研究了从未标注医疗数据中抽取医疗领域属性及属性值知识的方法,解决自动化处理复杂医疗数据的困难。本课题研究为了解决医疗领域的自然语言处理技术的实际应用问题,对医疗领域知识图谱的构建方法进行了研究;研究并实现了一种半监督从医疗信息中挖掘知识的方法,利用Bootstrapping算法和条件随机场模型(CRF)构建医疗领域词表,设计了一种获取构建知识图谱所需数据的方法;结合训练医疗领域词向量的方法尝试扩展数据抽取性能;研究了知识图谱数据相互融合的方法;并尝试根据所得的知识图谱进行应用解决实际问题。
医疗知识图谱构建与应用
这是一篇关于医疗领域,知识图谱,属性抽取,词向量,知识图谱融合的论文, 主要内容为近几年,互联网相关技术飞速发展,人们的生活方式也在随着技术的发展而改变着。医疗健康问题始终是人们生活中最关心的问题之一,自然而然,互联网上关于医疗健康方面的网站越来越多,医疗信息也越来越丰富。另一方面,随着电子设备的发展,很多医院记录患者信息的方式也从传统的纸质病历,更新为用计算机系统来存储电子病历。各式各样的信息显得繁多复杂,人们想从长篇大论的医疗信息中获取自己真正需要的信息反而变得困难。知识图谱的提出为知识的管理形式提供了一种优秀的解决方案。医疗领域知识专业又复杂,如果能够用知识图谱的形式将医疗领域信息组织起来,这对于医疗知识的进一步应用是有极大帮助的。医疗领域知识图谱的构建是人们迫切想要解决的问题,然而医疗领域知识的专业性为知识图谱的构建带来了很多不便。首先,包含医疗专业知识的标注数据并不多,没有足够的数据可供直接利用,包含医疗专业知识的未标注数据较多,但又没有充分利用起来;其次,医疗领域中某些词语在医学概念上的含义与通用领域不同,直接将通用领域迁移到医疗领域效果并不好;另外,大多知识图谱相关研究侧重于实体与实体之间的关系,然而对于医疗来说,医疗属性的属性值在分析病情时有着重要的作用,融入属性信息的知识才更完整。本课题研究了从未标注医疗数据中抽取医疗领域属性及属性值知识的方法,解决自动化处理复杂医疗数据的困难。本课题研究为了解决医疗领域的自然语言处理技术的实际应用问题,对医疗领域知识图谱的构建方法进行了研究;研究并实现了一种半监督从医疗信息中挖掘知识的方法,利用Bootstrapping算法和条件随机场模型(CRF)构建医疗领域词表,设计了一种获取构建知识图谱所需数据的方法;结合训练医疗领域词向量的方法尝试扩展数据抽取性能;研究了知识图谱数据相互融合的方法;并尝试根据所得的知识图谱进行应用解决实际问题。
知识图谱融合构建与补全方法研究
这是一篇关于二维表,知识图谱,知识图谱构建,知识图谱融合,知识补全的论文, 主要内容为随着网络互联的发展,互联网上的数据呈指数型增长,大多数信息被存储成二维表格的形式。知识图谱可以有效的对这些二维表数据实行组织、存储和表示。知识图谱由大量的实体和关系组成,具有很强的语义表达、数据建模能力,被广泛的应用在自动问答、搜索引擎、个性化推荐等各个领域。然而,当前基于二维表格数据的知识图谱构建和融合仍存在一些问题。通常情况下,只有具有相似属性的数据集才能被融合。此外,在构建知识图谱时,可能会出现重复节点,从而导致存储冗余等问题。同时,现有知识图谱大多是通过手工或半自动构建的,导致知识图谱中大量实体和关系缺失,致使知识图谱数据不完整、较稀疏。因此,迫切需要利用知识图谱补全的方法,即链接预测任务把知识图谱中缺失的知识补全。为了解决上述问题,本文展开了以下研究:提出一种基于二维表数据的知识图谱融合及构建方法。针对二维表生成知识图谱时带来的节点冗余问题,以及单表知识不足和多源数据库表在没有关系约束的前提下难以形成表间的映射问题,本文提出基于二维表数据的知识图谱融合构建方法。该方法首先利用本文提出的TKGC方法自行选出核心属性与其他属性之间构成的<属性值,属性名,属性值>三元组生成单表知识图谱,然后利用SNF融合方法或者SRF融合方法对不同类型的二维表知识图谱进行融合,最后实现基于Neo4j的可视化存储。本文利用了四个真实数据集进行仿真实验,可视化结果证明构建的图谱真实有效,通过本文融合方法融合后知识图谱中整体关系节点比增加了22.3%,关系数量增加了10.5%,证明本章方法增强了图谱联合查询和知识挖掘能力。提出一种基于邻域信息和注意力机制的链接预测方法(NALP)。在进行链接预测的时候,大多数现有的知识补全模型都是独立的处理知识图谱中的三元组,缺少应用实体的邻域信息,本文考虑到邻域信息对中心实体表达的作用,在编码器阶段引入注意力机制。在聚合邻域实体前,为了减少海量的邻域带来的计算量负担,首先抽取出k个一阶邻居实体;然后把实体及其k个邻居的向量表示送入解码器,聚合邻域信息进而获得更新的实体表示;最后把新的向量表示输入到解码器模型进行链接预测。NALP算法已经在FB15K-237、WINE、WN18RR三个数据集上完成了链接检测工作,实验结果显示,本文方法与基线模型相比,获得了更高的准确性,证明了该方法的有效性。
多源知识图谱无监督融合关键技术研究
这是一篇关于知识图谱融合,实体对齐,实体消歧,翻译模型,聚类的论文, 主要内容为近年来,知识图谱得到了广泛应用。随着不同机构组织或个人,根据自己的需求和设计理念不断创建相应知识图谱,不同知识图谱之间的融合日益重要。目前,绝大多数的知识图谱融合方法都是有监督的。有监督虽然能获得较好融合结果,但是存在对训练数据要求高、算法实时率低等问题。在以军事为例的某些特殊领域中,存在训练数据稀缺,算法实时性要求高等特点,无法应用有监督的融合方法,所以本文针对无监督条件下的知识图谱融合问题,研究了实体对齐和实体消歧技术,具体工作如下:1.设计了算法ST(Sim Rank+Trans H),通过集成相似度计算模型Sim Rank和翻译模型Trans H,提高了无监督条件下的模型查全率(Recall)。首先,ST利用Sim Rank算法,计算任意两点间的邻域相似度。然后,基于Trans H模型,将知识图谱嵌入到向量空间,并计算任意两点间距离。只有在两个节点邻域高度相似,且在向量空间中距离相近时,ST算法才对其进行融合。实验结果表明,在无监督条件下,ST算法较单个模型而言,显著提高了查全率(Recall)及综合评价指标F1分数,减少了对非重复节点的错误合并。2.设计了算法TPK(Trans H+PCA+K-means),通过主成分分析法PCA提取Trans H模型向量化结果,提高了K-means聚类结果的轮廓系数及兰德系数指标。首先,TPK利用Trans H模型,将知识图谱嵌入到向量空间,得到节点及边的向量化结果。然后,通过PCA提取图谱节点及边向量的主成分。最后,根据节点及边向量的主成分结果,使用K-means聚类算法进行聚类消歧。实验结果表明,在同等聚类中心规模下,提高了轮廓系数及兰德系数指标。3.设计了图谱节点聚类中心数的优化指标SRindex,通过优化SRindex,可确定实体节点的最优聚类个数,减少了消歧结果中的误判。首先,在不同的中心数目下,本文计算聚类结果的轮廓系数和兰德系数,并计算两者的和SRindex。本文以SRindex为优化目标,通过贪心算法最大化SRindex,从两个聚类中心开始,不断增加聚类中心数目,直至SRindex达到拐点,以此确定最佳的聚类中心数目。实验结果表明,通过SRindex确定节点的最优聚类个数,可减少消歧结果中的误判。4.研究了一种向量迁移方法,可基于向量化图谱反推其他图谱的节点及边向量,有效降低了知识图谱向量化中的时间开销。首先,本文使用Trans H模型对其中一个知识图谱进行向量化。然后,根据前件向量加关系向量等于后件向量的规则,通过向量相减运算,从已向量化的图谱反推其他图谱的节点及边向量。该方法可以大幅降低知识图谱融合中的向量化时间。最后,本文设计并实现了无监督条件下,针对多源知识图谱融合的原型系统,依托开源资料所构建的态势图谱进行了验证,结果表明,本文所提方法在多源知识图谱融合中是可靠且高效的,并且在“基于知识的战场态势分析与辅助决策技术”项目中得到了应用。
多源知识图谱无监督融合关键技术研究
这是一篇关于知识图谱融合,实体对齐,实体消歧,翻译模型,聚类的论文, 主要内容为近年来,知识图谱得到了广泛应用。随着不同机构组织或个人,根据自己的需求和设计理念不断创建相应知识图谱,不同知识图谱之间的融合日益重要。目前,绝大多数的知识图谱融合方法都是有监督的。有监督虽然能获得较好融合结果,但是存在对训练数据要求高、算法实时率低等问题。在以军事为例的某些特殊领域中,存在训练数据稀缺,算法实时性要求高等特点,无法应用有监督的融合方法,所以本文针对无监督条件下的知识图谱融合问题,研究了实体对齐和实体消歧技术,具体工作如下:1.设计了算法ST(Sim Rank+Trans H),通过集成相似度计算模型Sim Rank和翻译模型Trans H,提高了无监督条件下的模型查全率(Recall)。首先,ST利用Sim Rank算法,计算任意两点间的邻域相似度。然后,基于Trans H模型,将知识图谱嵌入到向量空间,并计算任意两点间距离。只有在两个节点邻域高度相似,且在向量空间中距离相近时,ST算法才对其进行融合。实验结果表明,在无监督条件下,ST算法较单个模型而言,显著提高了查全率(Recall)及综合评价指标F1分数,减少了对非重复节点的错误合并。2.设计了算法TPK(Trans H+PCA+K-means),通过主成分分析法PCA提取Trans H模型向量化结果,提高了K-means聚类结果的轮廓系数及兰德系数指标。首先,TPK利用Trans H模型,将知识图谱嵌入到向量空间,得到节点及边的向量化结果。然后,通过PCA提取图谱节点及边向量的主成分。最后,根据节点及边向量的主成分结果,使用K-means聚类算法进行聚类消歧。实验结果表明,在同等聚类中心规模下,提高了轮廓系数及兰德系数指标。3.设计了图谱节点聚类中心数的优化指标SRindex,通过优化SRindex,可确定实体节点的最优聚类个数,减少了消歧结果中的误判。首先,在不同的中心数目下,本文计算聚类结果的轮廓系数和兰德系数,并计算两者的和SRindex。本文以SRindex为优化目标,通过贪心算法最大化SRindex,从两个聚类中心开始,不断增加聚类中心数目,直至SRindex达到拐点,以此确定最佳的聚类中心数目。实验结果表明,通过SRindex确定节点的最优聚类个数,可减少消歧结果中的误判。4.研究了一种向量迁移方法,可基于向量化图谱反推其他图谱的节点及边向量,有效降低了知识图谱向量化中的时间开销。首先,本文使用Trans H模型对其中一个知识图谱进行向量化。然后,根据前件向量加关系向量等于后件向量的规则,通过向量相减运算,从已向量化的图谱反推其他图谱的节点及边向量。该方法可以大幅降低知识图谱融合中的向量化时间。最后,本文设计并实现了无监督条件下,针对多源知识图谱融合的原型系统,依托开源资料所构建的态势图谱进行了验证,结果表明,本文所提方法在多源知识图谱融合中是可靠且高效的,并且在“基于知识的战场态势分析与辅助决策技术”项目中得到了应用。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工厂 ,原文地址:https://bishedaima.com/lunwen/56251.html