基于知识图谱的猕猴桃种植知识问答系统
这是一篇关于知识图谱,问答系统,猕猴桃种植,字词融合,预训练语言模型的论文, 主要内容为近年来,我国猕猴桃种植业发展迅速,根据联合国粮农组织2019年数据显示,其种植面积和年产量均已位于世界第1位。猕猴桃产量和质量受产地、气候、种植技术以及病虫害防治等因素的影响,但现有的猕猴桃种植管理知识都以传统数据库形式存储,信息查询时知识利用率低,且搜索引擎的方式无法根据用户问题给出准确的答案,用户体验效果差。而知识图谱以结构化形式对知识进行存储,能够将知识更好地关联,从而实现信息效用最大化,设计并实现基于知识图谱的猕猴桃种植知识问答系统可以为种植人员提供高效准确的问答服务。本研究主要工作和结果如下:(1)猕猴桃种植知识图谱构建。针对猕猴桃种植领域数据多源异构的特点,采用自顶向下的方式构建猕猴桃种植知识图谱,首先设计猕猴桃种植知识图谱的本体概念模式,然后根据模式层的本体规范将抽取的三元组事实加入到数据层知识库中;针对知识图谱构建过程中知识抽取方法复杂、准确率低以及知识补全困难等问题,采用实体关系联合抽取方法和基于TransR的知识补全方法,并构建了融合字词语义信息的猕猴桃种植实体识别模型,该模型以SoftLexicon为基础,通过MHA和Attention机制分别调整词权重和词集重要度进一步提高命名实体识别精确率。实验结果表明,本文构建的猕猴桃种植实体识别模型与SoftLexicon模型相比,F1值提高了1.58%,达到了91.91%,在ResumeNER公开数据集上F1值达到了96.17%;猕猴桃种植三元组抽取F1值为92.86%;基于TransR的知识补全方法Hit@3和Hit@10分别为90.40%和92.60%。(2)基于知识图谱的猕猴桃种植知识问答方法研究。针对用户自然语言问句结构复杂、表达形式多样和质量参差不齐的问题,提出基于启发式扩展的主题实体匹配方法和基于BERT的问句意图分类方法,对用户自然语言问句进行理解;针对用户自然语言问句难以正确链接到知识图谱中的问题,提出了基于BERT-CNN-Siamese的关系链链接方法,对用户问句与关系链进行链接;通过对关系链添加实体约束,进一步提高猕猴桃种植知识问答准确率。实验结果表明,主题实体匹配方法的精确率为91.32%,问句意图分类方法和关系链链接方法F1值分别为95.07%和95.48%,答案查询准确率为82.86%。(3)基于知识图谱的猕猴桃种植知识问答系统设计与实现。针对现有问答系统未基于知识图谱实现猕猴桃种植知识问答服务,研究基于知识图谱的猕猴桃种植知识问答系统设计与实现。本研究以猕猴桃种植知识图谱为数据基础,以Django和ECharts为开发框架和数据可视化工具,以基于知识图谱的猕猴桃种植知识问答方法为业务核心,搭建了基于知识图谱的猕猴桃种植知识问答系统,为种植人员提供猕猴桃种植知识问答服务平台,促进猕猴桃产业智能化发展。
基于深度学习的新型冠状病毒肺炎多关系抽取算法的研究与应用
这是一篇关于生物医学数据挖掘,新型冠状病毒肺炎,预训练语言模型,多关系抽取,知识图谱的论文, 主要内容为从2020年开始,新型冠状病毒肺炎在世界范围内全面爆发,并对全人类的生产生活造成了不可恢复的巨大影响,世界各个国家都损失惨重。以中国为代表的部分国家采取了及时有效的措施,遏制了疫情的发展传播,但是新型冠状病毒的变异毒株却一次次席卷重来,变异后的毒株在暴露条件下生存能力更强,生存时间更久,传染性更强。与此同时,新型冠状病毒肺炎的研究文献数量也急速增长。如果科研人员仅仅通过人工阅读的方式获取相关信息,巨大的数据规模将消耗大量的时间与精力。疫情迫在眉睫,因此通过生物医学数据挖掘技术获取文献的数据将帮助科研人员推进药物研制以及疫苗研发工作。对于生物医学数据挖掘工作而言,命名实体识别与关系抽取是两个关键任务,同时生物医学命名实体识别又被认为是生物医学关系抽取的一个子过程。生物医学关系抽取的方法分为基于规则的方法、基于统计学的方法和基于机器学习的方法。其中,基于机器学习的方法又可分为基于特征工程的传统方法以及基于深度学习的方法。通用领域的标注语料需要消耗大量的成本,由于生物医学数据的特殊性,因此生物医学标注数据更为稀缺。不依赖特征工程的深度学习方法逐渐成为主流。近年来,在众多通用领域深度学习方法中,“预训练语言模型+微调”的模型脱颖而出并且在各种数据挖掘任务上表现出优异的性能。但其在生物医学领域的工作中仍有很大的提升空间。因此,本文首先提出了一个面向新型冠状病毒肺炎的预训练语言模型,使用最新的新型冠状病毒肺炎的无标注语料,针对新型冠状病毒肺炎的领域性、专业性重新预训练,以此获得了三阶段预训练模型P3模型,提升数据挖掘下游任务的性能。生物医学关系的复杂性使得文本中不只包含简单的二元关系,甚至包含复杂的重叠关系。因此本文的第二个工作提出了一个新型冠状病毒肺炎多关系抽取模型。对于文本中出现的重叠关系本文提出了Entity-position的编码方式,引入实体在文本中的绝对位置与相对位置,将实体对之间的距离作为额外信息加入模型,充分利用各个生物医学实体之间存在的语义关系,提升了关系抽取模型的性能。最后,本文提出了一个新型冠状病毒肺炎知识图谱的构建框架。将新型冠状病毒肺炎的数据通过知识图谱的方式进行存储表示,并基于该知识图谱使用知识推理与时间切片的方法发现潜在的生物医学关系,并且使用路径发现的方法验证知识推理结果的准确性,为新型冠状病毒肺炎的药物研制和疫苗研发提供新思路。
基于知识驱动的预训练语言模型研究
这是一篇关于预训练语言模型,知识图谱,依存句法分析,知识增强的论文, 主要内容为受益于近年来无需人工标注的自监督方法被提出以及大规模语料库的产生和普及,只需要少量数据在特定任务上进行微调便可以达到不错效果的预训练语言模型一经提出,便在各个领域取得了令人瞩目的成就,其中BERT更是一举刷新了NLP领域的11项记录。但是,研究人员逐渐发现仅基于单纯的预训练模型在面对一些复杂应用场景(如常识推理、领域自适应、知识驱动型任务)时,仍然和人类预期的效果存在差距。如何利用外部知识辅助神经网络模型更好地理解输入文本,是一个值得思考和探讨的问题。而知识图谱作为一种被持久化存储的知识库,其中包含了模型迫切需要的丰富结构化知识,可以被作为有效的外部知识注入到预训练模型中。然而,传统的知识增强模型仍然存在一些尚待解决的问题,如在引入知识图谱时,知识处理不够充分,仅考虑了实体自身的部分信息;在进行知识融合时,由于语言模型和知识图谱对单词的表示存在于两个完全不同的向量空间,会面临异构信息融合问题。另外,经常作为骨干模型的BERT、Ro BERTa等均限制其最大输入长度为512,将超过的部分截断、不足的则补齐。这在很多NLP场景中是比较不合理的,如新闻报刊等长文本中,其输入长度会很轻易超过这个限定值,采取这种做法会丢失大量的语义信息。同时,预训练语言模型对于输入文本本身蕴涵的信息利用也不够充分,一般做法只通过attention机制获取每个词的理解语义,忽略了经过依存句法分析后的词汇间依赖关系也可以作为一种对理解输入有益的外部知识。为此,在本文中我们针对上述场景中存在的问题进行了以下实验探索:1)基于ERNIE预训练语言模型,进一步融合Wiki5m知识图谱中的实体描述信息以及由整个Wikidata三元组生成的KELM-corpus语料库文本信息作为外部知识用于增强模型学习语义表示的能力,既增加了注入的知识,也缓解了由于知识图谱和自然语言文本语义空间维度不一致导致的异构信息融合问题。2)利用Stanford Core NLP、LTP等自然语言处理工具包以及基于规则的依存句法分析事件元素抽取方法,抽取出输入文本中包含的事件要素,整合后作为附加外部知识输入到预训练模型,以缓解模型由于最大输入长度限制而导致信息丢失的问题。3)利用GCN网络聚合由输入文本生成的依存句法图,分析词汇间的依赖关系,再融合BERT模型充分挖掘和利用输入文本自身的知识,以获取到语义增强的词嵌入表示。实验结果表明,我们的方法在Few Rel、TACRED、IFLYTEK、Co LA等中英文数据集上与基准模型相比效果均获得提升。
面向中医领域知识图谱构建的实体关系抽取方法研究
这是一篇关于实体关系抽取,预训练语言模型,外部知识,中医领域知识图谱的论文, 主要内容为中医药是中华文明瑰宝,在全民健康中发挥着重要作用,十八大后,习近平总书记高度重视中医药发展与应用,强调要“坚持中西医并重,传承发展中医药事业”。在中医领域建设知识图谱,从海量非结构化的中医科技文献中抽取结构化的“临床研究”知识体,补充中医临床研究知识库,支撑中医领域语义搜索、智能问答、决策支持等知识服务,有助于挖掘与利用中医药知识。构建知识图谱需要结构化的信息作为数据基础,从非结构化的科技文献文本中提取出有价值的结构化三元组,可以通过实体关系抽取实现。然而,目前国内外对实体关系抽取的现有主流研究,从研究内容上看大多集中于泛领域识别模型的研究,相对缺少对垂直领域知识特征与关联形式进行深入的研究。面向中医领域知识图谱的构建,主要研究集中在对中医医案资源、古籍等的深度分析方面,缺乏对科技文献的关系抽取研究。针对上述问题,本研究通过深度分析中医相关文献和领域知识库特征,设计领域实体关系表示模型,针对领域数据特征构建实体关系抽取模型,利用深度学习的方法,探索中医领域科技文献实体关系三元组的智能识别方法,为领域知识图谱构建提供数据基础。围绕上述目标,主要研究内容包括以下三个部分:(1)根据中医科技文献的特点和中医领域知识图谱的应用场景,充分利用现有中医领域数据库,在中国中医科学院中医药信息研究所的专家老师的指导下,构建了包含6类实体、7类关系的中医科技文献数据模式。(2)本研究挑选了11本具有一定权威性和可靠性的中医科技期刊,根据中医科技文献数据模式,对其中部分文章全文进行数据标注,得到具有6880条数据的中医科技文献实体关系抽取数据集。该数据集具有多标签和实体重叠两大特征。此外,本研究结合现有资源和外部资源构建了外部实体库,实体库中实体数量为78165。(3)设计基于预训练模型的中医科技文献实体关系抽取模型并进行实验验证。为解决领域数据集的重叠与多标签问题,本研究设计的实体关系抽取模型具有级联结构,即分为关系分类与实体识别两个子任务。在本文研究中,关系分类任务实质上是多标签分类任务,在关系分类任务中本文通过AC多模式匹配算法融入外部实体库的信息,得到BERT-EI模型的F1-micro为93.41%,相较于未融入外部信息的模型有0.67%提升。本研究中实体识别任务的本质是序列标注任务,在实体识别任务中加入关系分类任务得到的关系结果,不仅实现了两个模型的级联,解决了本文数据中的重叠问题,更为实体识别任务提供了外部信息,指导模型更好的进行序列标注。在实体识别任务中,本研究使用了消融实验的思路,验证了各个模块对于整个实体识别系统的作用,融入关系类型模块对于F1-micro指标有15.0295%的提升,最优模型结合了BERT、BiLSTM和CRF并融入了关系类型,该模型F1-micro为93.5796%。本文提出了面向中医领域知识图谱构建的实体关系抽取的解决方案。该方案以实际需求为准则,充分考虑领域研究现状,提供了一个较高质量的中医领域科技文献实体关系抽取数据集,设计了基于深度学习与融合外部知识的实体关系抽取方法,并验证了该方法的可行性和有效性。本文包含图39个,表20个。
基于深度学习的电商平台评论情感分析系统研究
这是一篇关于自然语言处理,预训练语言模型,电商评论,情感分析的论文, 主要内容为随着信息技术的飞速发展带动网络购物的迅速普及,各大电商收集了大量包含消费者主观意见的评论信息,这些信息蕴含着巨大的商业和社会价值。要从海量的评论数据中获得辅助决策的有效信息,采用人工智能技术挖掘评论情感信息的方案相较于人力浏览总结具有显著的优势。综观几大电商平台所获取的商品评论数据,发现存在如下典型问题:由于评论数据中差评数量相对稀少导致的严重数据种类不均衡和评论数据总量大导致的数据标注难度高。在业界对评论数据的重视程度已经达成共识的今天,针对上述问题,电商平台评论作为决策的辅助依据,如何使用深度学习技术对之进行更有效的情感信息挖掘,具有重大的研究意义。本文提出一种从语义理解角度针对电商平台用户评论文本的情感分析方法,将情感倾向分析问题转换为语义主题的分类问题。由于BERT预训练语言模型在各类情感分析任务中都表现出了不错的效果,本文以BERT语言模型为最基本的网络框架,在模型基础上根据评论数据特性进行一系列改进研究,论文主要工作如下:(1)针对海量评论数据导致数据标注难度高的问题:本文使用用户在电商平台对本次购物的星级评价作为初始标注。考虑到这种标注存在覆盖率不足以及用户评价随意等问题,本文采用聚类方法,结合开源情感字典和电商平台评论数据,生成适用于电商评论领域的情感词典,随后使用该词典对评论数据进行初步的情感分析,再将评论的情感分析结果与评论标签进行对比匹配,从而筛选出高质量标签数据。(2)针对差评数量稀少导致的情感分析训练数据类别不均衡的问题:本文引入图像领域数据增强方法Mix Match与NLP传统数据增强回译方法,对负例样本进行数据增强,增加其样本个数。由于Mix Match方法只适用于连续变量,故本文采用BERT的前10层将离散的文本向量变换成高维稠密向量,并结合筛选出的低质量标签进行Mixup操作,得到增强数据。同时,本文进一步引入目标识别领域的Focal_Loss算法,结合Mix Match与BERT的损失函数,引入权值与调质因子,通过惩罚大规模数据与易识别数据对总Loss的贡献,达到抵抗数据不平衡的目的。本文经过对电商平台评论的情感分析实验,检验本文提出的情感分析方法有效性,实验结果表明,本文提出的模型效果良好,相较于普通BERT模型与传统数据增强方法都有明显的提升。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://bishedaima.com/lunwen/46225.html