基于知识图谱的玉米育种智能问答系统研发
这是一篇关于玉米育种,知识图谱,智能问答系统,实体关系联合抽取,深度学习模型的论文, 主要内容为玉米育种对保障国家粮食安全作出了重要贡献。在玉米增产的诸多因素中,品种改良的贡献率约为35%,因此,新品种的选育与推广是促进玉米产量不断提高的关键因素。近年来,虽然我国玉米品种审定数量急剧增加,产生了海量的信息资源,但是这些信息多以半结构化和非结构化形式呈现在网页和书籍中,信息分散且传统的搜索引擎方式查询效率较低,给玉米育种工作带来很多不便。为了解决上述问题,帮助玉米育种人员快速准确地获取到有价值的信息,本研究利用知识图谱组织玉米育种领域数据,研究基于深度学习的智能问答方法,并在此基础上,设计实现玉米育种智能问答系统。本文完成的主要工作及成果如下:(1)玉米育种知识图谱构建以及知识演化。针对玉米育种数据中存在重叠三元组、实体表达方式多样等问题,设计了一种嵌入词汇信息的BERT-CRF玉米育种实体关系联合抽取方法。该方法采用对实体边界、关系类别和实体位置信息同步标注的策略,在BERT-CRF模型中嵌入玉米育种词汇信息,并设计了实体关系三元组匹配算法ERTM来获取三元组;针对知识图谱中的数据冗余问题,设计了编辑距离算法和Jaccard相似度系数相结合的知识对齐方法,实现了玉米育种知识的融合;针对知识图谱的不完备性,构建了一种基于实体邻域和弱性翻译的知识补全方法Trans NWT。实验结果表明,本文构建的知识抽取模型F1值为93.80%,玉米育种实体关系三元组抽取准确率为95.88%,知识补全方法Hit@10为78%。(2)基于知识图谱的玉米育种智能问答方法研究。针对用户问句实体识别不准确的问题,采用基于规则的AC多模式匹配算法和嵌入词汇信息的BERT-CRF模型提取问句实体,并采用基于字符串匹配的方法完成实体链接;针对问句长短不一、意图类别较多且特征稀疏的问题,构建了结合BERT和RCNN的问句意图理解模型;将问句实体和意图解析为Cypher查询语句,完成答案查询。实验结果表明,本文构建的问句意图理解模型F1值为95.48%,答案查询准确率为86.31%。(3)基于知识图谱的玉米育种智能问答系统设计与实现。针对玉米育种人员难以快速准确地获取玉米育种信息的问题,设计并实现了基于玉米育种知识图谱的智能问答系统。该系统以玉米育种知识图谱为知识库,以基于知识图谱的问答方法为核心,实现了玉米育种实体查询、关系查询和知识问答功能。该系统可以为玉米育种工作提供更准确、更有效的信息支撑,提高育种人员的工作效率。
基于轻量级Bert的医疗领域实体识别和意图分析方法研究
这是一篇关于知识图谱,命名实体识别,意图分析,智能问答系统的论文, 主要内容为随着大数据时代的到来,互联网上的各种信息以及各式各样的搜索引擎层出不穷,民众可以快速借助电脑或智能手机随时随地搜索自己想学习了解的事物,但是互联网搜索引擎中除了有效信息外往往会伴随着许许多多的冗余信息,这给用户的使用体验带来了很大的负面影响,在医疗领域更是如此,人们在患上疾病或有不适症状时,除了去医院检查之外,在大多数情况下都会先在互联网上搜索相关疾病的知识,进行自我诊断,但是互联网上的不准确、不专业的信息往往会给用户带来很大的困扰,甚至耽误病人的最佳治疗时机,用户在互联网上成千上万的信息中有效筛选出正确的、适用的医疗知识是不现实的。针对上述问题,本文就医疗领域实体识别与意图分析方法展开了研究,并基于上述研究构建了医疗智能问答系统,帮助用户高效、准确的检索医疗知识。本文的主要工作包括以下三个部分:(1)实体识别是自然语言处理的重点研究领域之一,但是,过去大部分的实体识别工作都是建立在英文基础上的,专门针对中文医学领域的实体识别研究相对较少。传统的RNN模型、LSTM模型等神经网络由于其梯度消失、梯度爆炸等问题在中文医疗领域往往表现不佳,基于此,本文提出了一种ALBert+Bi LSTM+CRF模型,不仅能够更好地适应医疗文本普遍较长、难以学习上下文关系的情况,也解决了Bert模型体量大、参数多、训练时间长的问题,并且针对中文医疗命名实体识别任务与各模型进行了对比试验,该模型在医疗数据集上的综合F1值达到了91.40%,在与各项模型的对比实验中均处于领先地位。(2)意图分析任务可以看作是一个多分类任务,但是用于医疗领域意图分析的数据集寥寥无几,并且传统的朴素贝叶斯模型、Text CNN模型等方法针对医疗意图分析任务的预测准确率偏低。本文针对现有数据进行了人工筛选和标注,构建了适用于医疗问答系统的意图分析数据集,解决了该领域数据集短缺的问题,而后提出了一种ALBert+Text CNN模型,弥补了Text CNN模型对于上下文信息不敏感、只能提取局部特征的不足,并且针对医疗文本中一些药物、疾病等词语偏长的问题,将Text CNN的卷积核大小扩充为5种。经过对比实验,本文提出模型的准确率达到了90.24%,相比基础的Text CNN模型提升了1.52%。(3)在上述两项研究的基础上,本文构建了一个基于问句解析的智能问答系统。首先对医疗健康网站进行数据爬取,构建了一个包含4.4万个实体、29.4万个实体关系的知识图谱作为问答系统的数据基础;其次,将上述的训练后的命名实体识别模型及意图分析模型进行整合,设计了一个问句解析器,作为问答系统的核心模块;最后,使用flask开发框架,设计了方便用户使用的前端可视化界面,完成智能问答系统的构建工作。
基于知识图谱的花椒种植智能问答系统设计与实现
这是一篇关于知识图谱,智能问答系统,命名实体识别,知识图谱补全,深度学习模型的论文, 主要内容为随着国家乡村振兴战略的提出,未来农业将逐渐趋于信息化。近年来,网络数据规模以指数级增长,但花椒种植知识仍主要以书籍的形式存在,使花椒种植从业人员难以利用互联网获得及时、专业的种植知识。为解决以上现实问题,帮助从事花椒种植人员快速获取专业的种植技术,本研究建立花椒种植知识图谱,并在知识图谱的基础上设计实现智能问答系统。目前我国花椒种植方面的智能问答服务尚未成熟,因此本研究对加快花椒种植产业信息化具有重要的意义。本文完成的主要工作如下:(1)花椒种植知识图谱构建方法研究。针对花椒种植领域缺乏专业知识图谱的问题,根据自顶向下的思想构建花椒种植知识图谱。针对传统知识图谱构建方式费时费力的问题,采用Bi-LSTM-CRF模型完成花椒种植命名实体识别,设计基于R-GCN的花椒种植实体关系分类模型,从而完成花椒种植三元组知识的自动抽取。结果表明,实体识别与LSTM-CRF模型模型相比,F1指标提高了11.43%;关系分类与GCN相比,F1指标提高了7.39%。(2)花椒种植知识图谱补全方法研究。针对知识图谱天生不完整的特性,提出一种基于嵌入表示和CNN的花椒种植知识图谱补全模型。该方法通过将三元组不同节点的信息互相融合,提高三元组的特征表达能力,并与原始三元组组成向量矩阵作为卷积神经网络的输入。实验结果表明,在数据集FB15K-237上较Conv E模型,MRR指标提升了6%,Hit@1指标提升了12.7%。(3)花椒种植智能问答方法研究。针对花椒种植问句篇幅较短,传统模型难以获取足够特征的问题,设计基于BERT-Bi-LSTM-CRF的花椒种植问句实体识别模型和基于BERT-CNN-Softmax的花椒种植问句意图理解模型。根据不同情况构建不同类型的Cypher查询语句完成答案查询。实验结果表明,较Bi-LSTM-CRF模型,问句实体识别F1值提高了3.4%;较Text RNN模型,问句分类F1值提高了8.08%。(4)基于知识图谱的花椒种植智能问答系统设计与实现。针对花椒种植从业人员难以利用互联网获得专业种植知识的问题,设计并实现基于知识图谱的花椒种植智能问答系统。系统基于B/S结构,以花椒种植知识图谱作为答案数据来源,利用花椒种植问句实体识别模型、问句意图理解模型和花椒种植知识图谱补全模型完成花椒种植智能问答和花椒种植知识图谱补全功能。方便用户获取专业的种植知识,极大地促进花椒种植产业的信息化发展。
高校迎宾问答系统中实体链接和关系分类方法的研究
这是一篇关于知识图谱,智能问答系统,短文本实体链接,关系分类的论文, 主要内容为基于知识图谱的智能问答系统是实现知识问答和自动化问答的重要途径。随着知识图谱的不断发展和壮大,其准确率和覆盖面也变得越来越高,在很多应用领域都受到广泛关注。本文对基于知识图谱的高校迎宾问答系统中所涉及到的短文本实体链接和关系分类任务展开研究,主要工作如下。首先,针对短文本问句中指称上下文口语化严重、上下文信息不足、实体指称多为同音字、缩写等,导致实体链接困难的问题,本文提出了一种基于多特征融合的短文本实体链接模型。该模型除了利用问句本身信息外,还通过筛选知识图谱内的信息,从多个角度提取特征并且对其特征进行融合来解决短文本信息不足的问题。其次,关系分类任务是指预测上下文中给定两个实体之间的关系类别。针对大部分基于BERT预训练模型的关系分类方法对BERT模型各层网络结构中信息利用不完整和训练标签固定、不灵活的问题,本文提出了一种基于CLS层加权和动态标签分配算法的关系分类模型。该模型首先通过CLS层加权算法重新为BERT各层的CLS标志位向量重新分配权重用来预测关系类别,利用设计的动态标签分配算法结合样本语义信息重新构造适合样本的训练标签,与预测向量计算损失值对关系分类模型进行训练。再次,在本文构建的数据集和公共数据集KORE50以及公共数据集Sem Eval上,对基于多特征融合的短文本实体链接模型、基于CLS层加权和动态标签分配算法的关系分类模型进行了有效性实验和对比实验,并进行了结果分析。最后,利用所提基于多特征融合的短文本实体链接模型和基于CLS层加权和动态标签分配算法的关系分类模型设计并实现了基于知识图谱的高校迎宾问答系统。
基于时序知识图谱的智能问答系统研究与原型实现
这是一篇关于时序知识图谱,知识抽取,智能问答系统,时序知识图谱嵌入,问答模型的论文, 主要内容为基于知识图谱的智能问答系统为人们提供了更加便捷化、精确化的信息服务。然而时间对于刻画事实本身起着不可或缺的作用。时序知识图谱虽然包含了时间信息,但是目前对它的研究还处于起步阶段。本文主要为了实现基于时序知识图谱的智能问答系统。该系统的实现需要构建时序知识图谱以及相应的问答模型。其中,时序知识图谱为整个系统提供知识来源,问答模型将输入的问题处理之后给出相应的答案。为了实现上述问答系统,本文主要研究了以下三方面内容:(1)本文构建了时序知识抽取模型T-CASREL用来完成时序知识图谱的构建。时序知识图谱的构建需要从文本中抽取时间信息,而现有的知识抽取模型只关注实体和关系的抽取,无法完成时间信息的抽取。T-CASREL模型由专门的时间抽取层来完成时间信息的抽取,并将时间信息融入到相应的实体和关系信息中,解决了时序知识图谱中时间维度的获取问题。此外,T-CASREL模型还采用了预训练模型和联合抽取模型进行实体关系抽取,通过对比实验验证了其性能方面的优势。(2)本文构建了时序知识图谱问答模型TTrans KGQA来实现问答系统的问题搜索功能。传统的问答模型对于涉及时间信息和多条知识推理的问题性能欠佳。而最新的基于知识图谱嵌入问答模型虽然在多条知识推理的问题上取得了较好的结果,但是其不能用于回答时间信息相关的问题。本文首先将已有的知识图谱嵌入模型进行了时间维度的拓展,使其能够将时序知识图谱进行嵌入表达。然后将拓展后的嵌入模型应用到TTrans KGQA模型中,并且通过实验验证了该模型在涉及时间信息和多条知识推理问题的能力。最后就TTrans KGQA中使用不同知识图谱嵌入模型进行了对比实验,选出表现最优的模型用于问答模型的实现。(3)本文以T-CASREL模型构建的时序知识图谱为知识储备,以TTrans KGQA作为问答模型构造了一个基于时序知识图谱的智能问答系统。该系统实现了问题搜索、最近提问、知识图谱可视化以及知识添加四个功能,并且每个功能都通过了测试,可以满足用户需求。
基于知识增强的机器阅读理解研究与应用
这是一篇关于机器阅读理解,文本数据增强,外部知识引入,智能问答系统的论文, 主要内容为近年来,机器阅读理解技术是自然语言处理领域的研究热点之一。智能问答作为自然语言处理领域的重要应用也逐渐普及。随着深度学习技术的发展及高质量的阅读理解数据集的出现,机器阅读理解领域不断有新的模型被提出与改进,并且在预训练模型出现之后达到了新的阶段。该技术目前在商业界已有较为广泛的应用,如淘宝、京东等电商平台推出的电商客服,苹果公司推出的Siri等。然而现有的机器阅读理解模型存在实际工业场景中模型不够健壮、迁移性差,缺少外部知识的利用等问题,本文主要对如何提升机器阅读理解模型在实际场景的应用,提升模型的泛化性指标等问题进行了研究,主要研究内容如下:(1)针对当前阅读理解模型鲁棒性的问题,提出了一种基于GPT-2的阅读理解数据集增强方法DA-GPT2。首先基于Glove词向量寻找最优增强句,再通过GPT-2预训练模型的语言多样性进行文本生成,对原始数据集中的问题文本进行数据增强。从而在整体上扩充训练数据,最终提升模型的鲁棒性。(2)针对当前阅读理解模型对于外部知识引入不足的问题,提出了一种基于实体识别与注意力机制的外部知识引入方法NA-Net。以基于预训练模型的阅读理解任务为主体,添加额外的辅助任务:实体识别,并将辅助任务抽取的实体与外部知识向量进行基于注意力机制的交互,从而提升预训练模型引入外部知识的效果。(3)随着疫情的放开带来了旅游业的全面复苏,智能问答系统在旅游业有着广泛需求问题。本文基于Rasa开源框架设计并实现了旅游咨询智能问答系统,在问答系统功能方面,实现了基于FAQ的问答、基于知识图谱的问答与基于机器阅读理解技术的问答,并且实现了多模块答案融合。
面向多数据源医疗知识图谱的智能问答系统研究
这是一篇关于知识图谱,智能问答系统,医疗,BERT,GPT-2的论文, 主要内容为新冠疫情爆发后,传统的线下就医方式受到影响,变相促进了“互联网”医疗和智慧医疗发展速度。但线上获取医疗信息的方法主要是通过搜索引擎,精准度难以得到保障,而且对于想要根据条件个性化查找医疗信息的人群来说,这种信息获取方式不够高效。知识图谱能够作为一个高质量数据来源,而智能问答系统能精准、便捷的查找信息,两者结合起来便可以定向查找高质量信息。因此,本文构建了一个医疗知识图谱,并基于该知识图谱实现了医疗知识的智能问答系统。本文的研究工作主要包括以下几个方面:第一,医疗知识图谱构建。以开源医疗知识图谱中的数据为基础,利用互联网数据进行补充,将不同来源的数据进行融合、动态更新,构建了能够用于智能问答的医疗知识图谱。第二,以基于注意力机制的BERT-BILSTM-CRF实体识别算法为主的问句解析模块。本文结合实际语境,将问题分为两类:医疗服务类问题和其他开放性问题。对于用户输入的问句,本文利用医疗实体词典对问句分类后,使用基于注意力机制的BERT-BILSTM-CRF实体识别算法进行命令实体识别获取问句中的关键词。最后交由问答引擎处理。实验证明使用注意力机制的BERT-BILSTM-CRF算法能获得更好的效果。第三,基于医疗知识图谱的智能问答系统的设计与实现。本文实现了一个基于医疗知识图谱的智能问答系统,对用户问题进行分类,以BERT语言模型为核心的检索式模型处理医疗服务类问题,使用GPT-2生成式模型自动生成其他开放性问题的答案。使用两个不同模型对问题进行处理。在实际运行过程中系统运行状况良好,能够实时对用户的问句进行准确回答,满足用户医疗信息获取的需求。
基于网购评论的电商平台智能问答系统关键技术研究
这是一篇关于命名实体识别,知识抽取,知识图谱,智能问答系统,深度学习的论文, 主要内容为在人工智能快速发展的时代背景下,智能化的自然语言处理技术取得了快速发展。实现高效、全面,更具有实用性的智能问答随之成为了自然语言智能化的重点研究方向。其中,作为重点应用领域之一,借助自然语言智能处理技术方面取得的研究成果,面向电商领域开发建设更具智能性和实用性的智能问答系统引起了国内外学者和产业界的高度关注。近年来,随着电子商务的快速发展,电子商务平台数量、用户数量快速增加,商品种类日益丰富、商品信息爆炸式增长,广大网购消费主体在进行商品选购时出现的“信息迷失”问题越发严重,进而导致消费者在不同电商平台之间进行商品比选时遇到了严重困难。一方面,从市场需求角度分析,受限于用户群体庞大、客服资源受限的制约,客户服务供需严重失衡,因此对于构建智能问答系统有着迫切需求;另一方面,从技术研发角度分析,不同于其他领域的问答系统,电商平台用户数量和商品内容的海量性,以及不同网购用户对于商品的关注点及认知的差异性,使得智能问答系统的构建具有更大的挑战性,其中很多问题还需要进行持续深入研究。基于上述背景,本文在总结、分析国内外相关领域主要研究成果的基础上,从网购用户评论分析的视角出发,开展了面向电商领域的智能问答系统构建关键技术研究。主要研究内容和研究成果如下:(1)在网购评论知识抽取方面,提出了一种基于MA-BiLSTM-CRF的网购评论命名实体识别方法并通过实验验证了其有效性。该方法首先以词向量和词性向量的组合作为BiLSTM的输入,利用BiLSTM提取网购评论文本的全局特征。然后,通过引入多头注意力机制在文本全局特征上提取最终的文本特征。最后,利用CRF识别出网购评论中蕴含的属性类和观点类知识。(2)在命名实体关系抽取方面,提出了一种基于CNN的实体关系抽取方法并通过实验验证了其有效性。该方法首先通过基于Wec-HC算法,对属性类实体进行聚类。然后,根据聚类结果对属性类实体进行替换。最后,通过CNN对属性类实体和观点类实体之间的匹配关系进行抽取。(3)在知识库构建方面,提出了一种基于知识图谱的智能问答系统知识库构建方法。为更好的表示和使用网购评论中的命名实体和实体关系,该方法首先通过整理抽取得到的实体和实体关系,然后将其导入到图数据Neo4j中,最后以知识图谱的表现形式进行智能问答系统知识库的构建。(4)在问答系统建模方面,设计了基于知识图谱的智能问答处理流程,提出了一种将用户问句文本中的实体与知识库中的实体准确链接的问句分析以及答案生成方法。该方法由问句分析模块和答案生成模块组成,首先问句分析模块利用实体识别技术和实体链接方法对问句进行语义解析,得到用户问句的语义信息。然后,在答案生成模块中把问句分析模块得到的语义信息转为知识图谱查询语言,通过在知识图谱内进行查询,得到问句的答案。最后,将语序处理后的问句答案反馈给提问用户。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计驿站 ,原文地址:https://bishedaima.com/lunwen/45999.html