基于UCL知识空间的网页新闻搜索系统研究与实现
这是一篇关于新闻搜索,统一内容标签,知识空间,实体消歧,文本匹配的论文, 主要内容为随着互联网的飞速发展,网络已经成为用户获取新闻的主要渠道,激增的网络新闻数量在给用户带来海量资源的同时也对新闻搜索服务提出了更大的挑战。精准解析新闻网页是组织海量新闻的前提,而新闻之间的有效组织是实现准确高效的新闻搜索的桥梁。然而,现有搜索服务却存在以下问题:首先,新闻网页包含丰富的内容要素,现有的搜索方案无法帮助用户精准抽取出新闻中蕴含的有效信息,用户需要自主归纳关键信息才能够进行二次搜索;其次,新闻之间缺少关联,没有统一的标准对海量化、碎片化、异构化、无序化的网页新闻进行有效组织;最后,搜索结果同质化严重,存在大量的冗余新闻,搜索质量不高。因此,如何通过系统化的方案帮助用户从海量的网页新闻中搜索出准确精炼的结果,成为提升用户阅读质量的关键。针对上述问题,本文提出利用统一内容标签(Uniform Content Label,UCL)对碎片化的新闻内容进行有效聚合,将新闻实体、实体间关系以及标引新闻的UCL利用知识图谱进行存储,构建UCL知识空间(UCL Knowledge Space,UCLKS)。UCLKS通过知识空间中实体的关联在UCL之间建立起联系,同时利用UCL语义信息丰富基础图谱单一的三元组结构,在此基础上提供高质量的搜索服务。本文主要工作如下:(1)针对如何高效准确获取海量网页新闻中蕴含的有效信息的问题,提出了面向UCL知识空间的新闻要素抽取方法。首先提出基于文本块特征融合的正文抽取算法(Content Extraction Based on Text block Feature Fusion,CETDF)以及基于同源网页模版的抽取改进策略,两者分别解决了现有算法抽取精度不高以及海量数据场景下抽取时间较长的问题;接着,通过改进的依存句法分析完成新闻三元组的抽取;最后,利用UCL完成新闻文本的标引,通过UCL中实体语义权重的计算方法增强了实体与UCL的语义关联。(2)针对新闻之间缺乏有效组织的问题,提出融合新闻要素的UCL知识空间构建方法。首先完成维基百科与百度百科的离线数据抽取工作,通过异构知识库的实体融合实现基础知识库的构建;然后提出基于UCL知识空间的实体消歧方法(Entity Disambiguation based on UCL Knowledge Space,UCLKS-ED),利用知识空间中的实体概念以及关联上下文信息作为待消歧实体与候选实体的补充知识,提高了在缺少上下文信息情况下的消歧准确率;最后给出UCLKS节点形式化定义与持久化方案,进而完成UCLKS的构建。(3)针对新闻搜索质量不高的问题,提出基于UCL知识空间的新闻搜索方法。首先,提出UCL实体侧重系数,进一步丰富了文本中重点实体的语义表示;然后提出基于共现实体交互图的新闻匹配方法(News Matching via Co-occurrence Entity Interaction Graph,CEIG-NM),将长文本的匹配任务拆分为在共现实体形成的节点上进行的短文本匹配任务,利用图卷积神经网络聚合节点特征,有效改善了长文本匹配的结果;最后提出了一种基于实体侧重系数的排序策略,利用新闻的要素信息对排序结果进行合理的修正。(4)基于上述研究,本文设计并实现了基于UCL知识空间的新闻搜索原型系统,并且通过实验验证了算法的可行性和有效性。实验结果表明,通过引入更多的文本块特征,CETDF相比于其他正文抽取算法达到了更高的抽取准确率;UCLKS-ED在短文本实体消歧任务中取得了最好的效果,通过消融实验证明了引入UCL知识空间以及实体概念化模块的作用;CEIGNM在最新的中文新闻匹配数据集上取得了较好的匹配结果。
基于上位词关系图谱的标签映射的研究与实现
这是一篇关于知识图谱,上位关系,标签映射,语言模型预训练,实体消歧的论文, 主要内容为近年来短视频领域十分火热,发展迅猛。各个视频平台每天都有大量的PGC和UGC短视频被生产、分发和消费,为了更好地实现平台内容运营,实现精准的内容分发,提高用户体验,需要为每个短视频快速、准确地打上语义标签。为了解决人工手工标注带来的效率低下和积压问题,自动化标注技术成为各大平台都在致力于发展的技术。深度学习技术在计算机视觉领域获得的巨大成功为短视频的自动标注提供了新的技术解决方案。这种技术可以准确地识别出视频中出现的一些客观具象的事物,但对一些主观抽象的东西识别准确度较低。因此,结合实际数据集从算法的角度考虑,在使用深度学习方法训练短视频自动标注模型的时候,采用了大规模、细粒度的类别标签。然而,实际业务中使用的标签是针对业务需要给出的,有些热门的标签是细粒度的,但多为一些粗粒度的、抽象的标签,所以需要把算法模型给出的算法标签映射到业务标签。另外,我们还注意到实际使用的这些类别标签缺乏科学的组织与管理,多为一些离散、孤立的语义类别结点,没能充分利用这些标签结点之间的语义关系,由此造成标签的冗余和混乱。考虑到ImageNet使用WordNet中的语义节点作为其图片的类别标签,从而把一个个扁平、孤立的语义类别标签组织在一个具有上下位关系的语义网下,实现了图片标签在语义网下的定义、管理和扩展。我们借助近年来比较火的知识图谱和自然语言处理技术,以中文百科数据为主,构建一个基于上位词关系的通用图谱,利用图谱中的实体和概念结点以及结点之间的语义关系实现短视频类别标签的定义、组织,实现短视频分类标签在上位关系和同义关系下的扩展。我们利用图谱中标签结点之间的上位语义关系实现短视频分类模型算法标签到业务标签的映射。本文根据实际业务背景需求主要进行了如下工作:1.百科数据的采集与解析,主要针对中文百度百科,从中抽取所需的词条实体信息,并对抽取的词条数据进行数据清洗;2.结合多种方法完成实体和概念上位关系的获取,主要有基于百科的方法、基于中心词的方法、基于Magi搜索引擎的方法。这些方法相互补充,从而达到较好的上位关系抽取效果;3.结合使用最新的自然语言处理预训练语言模型技术,采用分段线性投影模型对获取的部分上位关系进行语义关系验证;4.标签实体的消歧和共指消解,主要用来解决把原始算法标签和业务标签链接到我们所构建的图谱中对应的正确实体和概念节点。标签实体消歧用来解决同名不同义的问题,即一个实体名对应于图谱中多个意义不同的实体。标签共指消解用来解决同义问题,即存在多个实体名称对应于图谱中的同一实体;5.使用Neo4j图数据库、Django框架、Echarts可视化框架等技术设计并实现一个图谱和标签管理系统,完成短视频分类模型算法标签到业务标签映射的功能。
基于知识图谱的医疗问答系统研究与实现
这是一篇关于医疗知识图谱,问答系统,知识抽取,实体消歧,语义补全的论文, 主要内容为近年来人工智能方面的技术发展迅猛,业界对知识图谱和深度学习等领域的研究非常火热,如今这些技术在不同行业都已经有了初步的应用,为弥补传统模式的短板提供了很多新的解决方案。在医疗信息检索领域,普通用户很难获取专业准确医疗信息,通过关键字检索方式已经逐渐不能满足于人们的需求,因此本文借助人工智能技术对基于知识图谱的医疗问答系统进行了研究,通过构建信息抽取模型、语义补全模型和医疗知识图谱,对问句中非标准实体进行替换,解决了传统问答过程中实体歧义和指代不明的问题,使系统可以更准确的理解用户的意图,提高系统的回复效率,让计算机可以生成专业性更强的答案。本文的主要工作内容如下:1、研究并构建了一种基于矩阵编码的知识抽取模型,用于问答系统中文本的实体关系识别和医疗知识图谱构建。该模型将实体和关系同时编码在一个标签矩阵中,通过一步抽取三元组的方式,解决了传统多模多步的知识抽取模型实体重叠和累计误差的问题,并且本文将基于矩阵编码的知识抽取模型与当前主流模型做了对比实验,实验结果证明了模型性能的提升。2、联合基于知识图谱的实体消歧模型和实体改写器机制,研究并构建了基于知识图谱的语义补全模型。首先本文的实体消歧模型利用多路召回和实体链接技术从医疗知识图谱中找到标准实体,对有问题实体进行替换,解决了实体层的实体歧义问题,然后利用实体改写机制对句子层的指代不明问题进行改写,通过对实体和句子层的处理,完成了语义歧义和缺失的补全。并且用对比实验证明了模型的可行性。3、本文结合上述两方面的工作实现了基于知识图谱的医疗问答系统。通过需求调研,首先构建了知识图谱,然后根据业务和功能设计了包括数据构建层、综合服务层、前端应用层的系统架构。最后通过对系统进行测试,表明系统功能符合业务需求。
多源知识图谱无监督融合关键技术研究
这是一篇关于知识图谱融合,实体对齐,实体消歧,翻译模型,聚类的论文, 主要内容为近年来,知识图谱得到了广泛应用。随着不同机构组织或个人,根据自己的需求和设计理念不断创建相应知识图谱,不同知识图谱之间的融合日益重要。目前,绝大多数的知识图谱融合方法都是有监督的。有监督虽然能获得较好融合结果,但是存在对训练数据要求高、算法实时率低等问题。在以军事为例的某些特殊领域中,存在训练数据稀缺,算法实时性要求高等特点,无法应用有监督的融合方法,所以本文针对无监督条件下的知识图谱融合问题,研究了实体对齐和实体消歧技术,具体工作如下:1.设计了算法ST(Sim Rank+Trans H),通过集成相似度计算模型Sim Rank和翻译模型Trans H,提高了无监督条件下的模型查全率(Recall)。首先,ST利用Sim Rank算法,计算任意两点间的邻域相似度。然后,基于Trans H模型,将知识图谱嵌入到向量空间,并计算任意两点间距离。只有在两个节点邻域高度相似,且在向量空间中距离相近时,ST算法才对其进行融合。实验结果表明,在无监督条件下,ST算法较单个模型而言,显著提高了查全率(Recall)及综合评价指标F1分数,减少了对非重复节点的错误合并。2.设计了算法TPK(Trans H+PCA+K-means),通过主成分分析法PCA提取Trans H模型向量化结果,提高了K-means聚类结果的轮廓系数及兰德系数指标。首先,TPK利用Trans H模型,将知识图谱嵌入到向量空间,得到节点及边的向量化结果。然后,通过PCA提取图谱节点及边向量的主成分。最后,根据节点及边向量的主成分结果,使用K-means聚类算法进行聚类消歧。实验结果表明,在同等聚类中心规模下,提高了轮廓系数及兰德系数指标。3.设计了图谱节点聚类中心数的优化指标SRindex,通过优化SRindex,可确定实体节点的最优聚类个数,减少了消歧结果中的误判。首先,在不同的中心数目下,本文计算聚类结果的轮廓系数和兰德系数,并计算两者的和SRindex。本文以SRindex为优化目标,通过贪心算法最大化SRindex,从两个聚类中心开始,不断增加聚类中心数目,直至SRindex达到拐点,以此确定最佳的聚类中心数目。实验结果表明,通过SRindex确定节点的最优聚类个数,可减少消歧结果中的误判。4.研究了一种向量迁移方法,可基于向量化图谱反推其他图谱的节点及边向量,有效降低了知识图谱向量化中的时间开销。首先,本文使用Trans H模型对其中一个知识图谱进行向量化。然后,根据前件向量加关系向量等于后件向量的规则,通过向量相减运算,从已向量化的图谱反推其他图谱的节点及边向量。该方法可以大幅降低知识图谱融合中的向量化时间。最后,本文设计并实现了无监督条件下,针对多源知识图谱融合的原型系统,依托开源资料所构建的态势图谱进行了验证,结果表明,本文所提方法在多源知识图谱融合中是可靠且高效的,并且在“基于知识的战场态势分析与辅助决策技术”项目中得到了应用。
基于上位词关系图谱的标签映射的研究与实现
这是一篇关于知识图谱,上位关系,标签映射,语言模型预训练,实体消歧的论文, 主要内容为近年来短视频领域十分火热,发展迅猛。各个视频平台每天都有大量的PGC和UGC短视频被生产、分发和消费,为了更好地实现平台内容运营,实现精准的内容分发,提高用户体验,需要为每个短视频快速、准确地打上语义标签。为了解决人工手工标注带来的效率低下和积压问题,自动化标注技术成为各大平台都在致力于发展的技术。深度学习技术在计算机视觉领域获得的巨大成功为短视频的自动标注提供了新的技术解决方案。这种技术可以准确地识别出视频中出现的一些客观具象的事物,但对一些主观抽象的东西识别准确度较低。因此,结合实际数据集从算法的角度考虑,在使用深度学习方法训练短视频自动标注模型的时候,采用了大规模、细粒度的类别标签。然而,实际业务中使用的标签是针对业务需要给出的,有些热门的标签是细粒度的,但多为一些粗粒度的、抽象的标签,所以需要把算法模型给出的算法标签映射到业务标签。另外,我们还注意到实际使用的这些类别标签缺乏科学的组织与管理,多为一些离散、孤立的语义类别结点,没能充分利用这些标签结点之间的语义关系,由此造成标签的冗余和混乱。考虑到ImageNet使用WordNet中的语义节点作为其图片的类别标签,从而把一个个扁平、孤立的语义类别标签组织在一个具有上下位关系的语义网下,实现了图片标签在语义网下的定义、管理和扩展。我们借助近年来比较火的知识图谱和自然语言处理技术,以中文百科数据为主,构建一个基于上位词关系的通用图谱,利用图谱中的实体和概念结点以及结点之间的语义关系实现短视频类别标签的定义、组织,实现短视频分类标签在上位关系和同义关系下的扩展。我们利用图谱中标签结点之间的上位语义关系实现短视频分类模型算法标签到业务标签的映射。本文根据实际业务背景需求主要进行了如下工作:1.百科数据的采集与解析,主要针对中文百度百科,从中抽取所需的词条实体信息,并对抽取的词条数据进行数据清洗;2.结合多种方法完成实体和概念上位关系的获取,主要有基于百科的方法、基于中心词的方法、基于Magi搜索引擎的方法。这些方法相互补充,从而达到较好的上位关系抽取效果;3.结合使用最新的自然语言处理预训练语言模型技术,采用分段线性投影模型对获取的部分上位关系进行语义关系验证;4.标签实体的消歧和共指消解,主要用来解决把原始算法标签和业务标签链接到我们所构建的图谱中对应的正确实体和概念节点。标签实体消歧用来解决同名不同义的问题,即一个实体名对应于图谱中多个意义不同的实体。标签共指消解用来解决同义问题,即存在多个实体名称对应于图谱中的同一实体;5.使用Neo4j图数据库、Django框架、Echarts可视化框架等技术设计并实现一个图谱和标签管理系统,完成短视频分类模型算法标签到业务标签映射的功能。
面向文档的实体链接方法研究
这是一篇关于实体链接,实体消歧,知识库,实体表示,图注意力网络的论文, 主要内容为实体链接旨在将文本中的实体链接到知识库中相应实体,借助知识库帮助文本的语义理解,在信息抽取等任务中有广泛应用;同时,实体链接实际上涉及文本中实体的语义消歧,是自然语言处理中的基础课题之一。由此,实体链接具有应用与研究的双重意义,受到广泛关注。目前基于深度神经网络的实体链接方法已经取得很大进展,特别是文本中实体的语义表示可以充分考虑上下文,但是文本链接的精度很难进一步突破。一方面,知识库中的实体表示难以体现区别性的语义;另一方面,链接算法有时会导致同一文档内发生矛盾的链接结果。针对上述问题,本文围绕知识库中实体的类型等相关资源以及知识库全局结构化信息的利用展开研究,深入研究知识库中实体的语义表示学习方法和建模文档内实体间关联性的全局链接算法,并在公开数据集上进行验证,本文的研究成果总结如下。(1)提出融合细粒度类型信息的实体语义表示学习方法。我们通过对当前实体链接模型进行错误分析发现跨实体类型链接错误占比较高。考虑到实体类型是区分实体语义的重要特征,本文充分利用现有实体类型及标注系统资源,提出基于词向量预训练的嵌入细粒度类型的实体表示学习方法。首先,对训练语料中的实体进行细粒度类型标注;然后,借助Skip-gram模型,利用标注语料预训练词向量使得可以预测细粒度类型;最后,借助最大间隔算法(Max-margin)学习实体表示,使其尽可能接近周围上下文的词向量,而远离其他词向量。本文在两种典型实体链接模型上的应用验证结果显示,五个公开测试集上的链接精度的平均F1值上分别提高0.82%和0.42%。(2)设计实现基于知识图谱的全局实体链接模型。文档内所有链接结果的实体之间实际存在潜在的语义关联性,而已有方法只通过计算实体间的相似度建立其关联性。我们考虑知识图谱中大规模的三元组蕴含实体间的关系,可以帮助构建候选实体间的关联。为此本文提出基于知识图谱的全局链接模型,首先设计实现基于图网络模型的候选实体全局表示学习模块,节点和边分别表示候选实体和来自知识图谱三元组的实体关联,并引入图注意力机制获取关联实体的语义特征以更新当前的实体表示;然后设计实现基于CNN模型的文档实体全局表示学习模块,抽取上下文特征及文档内其他实体的特征表示与当前的文档实体表示融合;最后设计实现基于候选实体与文档实体相似度的决策方式。五个公开测试集上的评测结果显示,链接精度的平均F1值提升0.39%,其中三个测试集上的精度超过已有工作。
基于知识图谱的新冠问答系统研究与应用
这是一篇关于知识图谱问答,实体提及识别,实体消歧,关系预测的论文, 主要内容为随着软硬件技术的飞速发展,大规模知识图谱的构建和存储成为了可能,并为问答系统、药物发现等人工智能应用提供了知识基础。问答系统作为人工智能领域一项前景广阔的落地应用受到人们的广泛关注。与通过搜索引擎获取知识的方式相比,问答系统能更加智能和高效地给出确切的答案。基于知识图谱的问答系统(Knowledge Based Question Answering,KBQA)结合二者的优势,将用户的查询解析为逻辑形式,进而在知识图谱中检索并返回答案。本文围绕KBQA的关键技术和落地应用进行了研究,主要内容如下:实体提及识别、实体消歧和关系预测是KBQA任务中的关键技术。首先,针对开放域知识图谱中实体和关系数量繁多,且中文问句与事实三元组在表现形式上存在差异的问题,提出一种基于特征增强的BERT的流水线式问答系统BERT-CKBQA来解决单一关系事实类问题。采用BERT-CRF模型识别问句中提及的实体;提出候选实体关系特征增强BERT-CNN模型进行实体消歧;提出通过注意力机制引入答案实体关系特征的BERT-Bi LSTM-CNN模型进行关系预测。该方法结合预训练模型与关系特征有效改善了子任务的性能表现,并在NLPCC-2016-KBQA数据集上取得了88.75%的平均F1值,提高了问答准确率。其次,针对复杂问题问答中关系预测步骤召回的候选路径数量随关系跳数成指数级增加的问题,本文提出一种逐跳关系预测框架,将关系预测任务拆分为两个主要的子任务:停止决策任务和路径相似度计算任务,采用延伸和聚合操作分别解决链式问题与多实体问题。在CCKS-2019问答数据集上实验验证了该方法的有效性,在取得了与现有方法相比有竞争力的性能的同时,逐跳机制能显著减少了候选规模,提升系统整体性能与效率。最后,时值2020年新型冠状病毒肺炎疫情爆发,为了让医疗人员以及非计算机专业人士方便快捷地获取新冠开放知识图谱中蕴含的大量珍贵的关于新型冠状病毒的信息,降低获取医学专业知识的门槛,本文结合Open KG发布的多个新冠开放知识图谱与开放域知识图谱问答关键技术,构建了基于新冠开放知识图谱的问答系统。本文将该系统划分为问题分类、实体链接、关系预测和基于问句相似度的FAQ等模块,并基于Web技术将其封装,提供接口以便投入实际应用。
基于实体增强的教育知识图谱管理系统的研究与实现
这是一篇关于知识图谱,实体消歧,深度神经网络,图谱管理系统的论文, 主要内容为近些年来,随着互联网技术不断发展,在线学习的需求越来越普遍。虽然通过互联网可以接触到各种的学习资料,但同时学习资源纷乱繁杂且质量不一的缺点也很明显。随着人工智能与大数据等信息技术产业不断发展,利用知识图谱相关技术解决学习效率不高的问题,也逐渐成为普遍共识。通过知识图谱管理系统可以有效的对学科知识图谱进行管理与可视化展示,因此本文研究数学学科知识图谱管理系统,为学生学习提供相关帮助,提高学习效率与成绩。知识图谱管理系统的核心是构建学科知识图谱。由于一词多义等情况的出现,造成知识图谱在构建后系统出现使用效果不理想、体验不佳等问题,知识图谱实体消歧就变的尤为重要。因为短文本中蕴含的语义信息不充分,词语间的关系表达不完整和知识图谱当中缺乏有效的利用信息等多重问题,导致短文本实体链接消歧方法存在较大局限性。针对于此,本文提出了一种实体增强模型,利用候选实体项节点所在结构,将候选实体项节点直接相邻的节点与关系拼接成相应的语句,所有节点与关系组成的文本作为候选实体项节点的信息补充。该方法将候选实体项与相应的扩充文本信息作为BERT预训练模型的输入,通过改进BERT特征输出与利用自注意力机制和Textcnn卷积神经网络模型,提取文本中特定的信息作为实体消歧的特征。通过相应的实验表明,本文提出的方法能够增强候选实体项的语法语义特征,对提高实体消歧的效果有一定的作用。系统实现部分采用前后端分离的策略,前端采用VUE实现可视化界面,后端使用Spring boot处理业务过程,使用Neo4j和Mysql分别存储实体关系数据与用户数据。通过用户验证模块来鉴别用户的身份,跳转到不同的操作界面。学科知识数据通过构造模块来形成知识图谱。在知识图谱管理模块可以对于实体、关系进行更改与变换,也可更新数据对知识图谱进行知识扩充。利用可视化模块对于知识三元组进行展示从而获得学科知识结构整体与部分的概览。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码项目助手 ,原文地址:https://bishedaima.com/lunwen/47859.html