基于答案选择结合知识图谱的问答模型研究
这是一篇关于问答模型,答案选择,知识库问答,知识图谱,深度学习的论文, 主要内容为问答系统能够满足人们想要快速、准确地获取信息的需求。虽然目前学者们对问答系统的研究已经取得了很大进步,但仍然存在一些问题。目前大多数的问答系统都是基于问题与问题之间的相似度,或者问题与答案之间的相似度,当用户提出的问题超出系统的训练语料库的范围时,会导致算法预测答案的准确度下降。为了解决这一问题,本文将知识图谱的信息应用于问答系统中以扩展问答系统的范围。同时,为了更好的利用和学习知识库的信息,本文利用知识图谱的已知事实,结合答案选择(AS)和知识库问答(KBQA)的共同点,采用传统的问答模型来提高知识库检索的准确性。本文的主要内容包括以下几点:(1)AS-KBQA模型的设计:本文提出基于答案选择与知识图谱的问答模型,即AS-KBQA问答模型,该模型设计为三个模块:问题理解模块、答案选择模块和翻译模块。问题理解模块使用CNN与bi LSTM相结合的算法提取给定问题的实体以及问题与答案之间的关系,并通过大量的探索设计了一个提取实体的启发式算法。答案选择模块使用bi LSTM结合Attention和Soft Max的深度学习模型来选择一组候选答案实体。翻译模块包括三部分:1.使用BERT模型将知识库信息映射到向量空间,并将实体关系转化为空间向量;2.处理上两个模块传递来的数据;3.结合训练好的Trans R模型,检索出答案。(2)医疗领域知识图谱的构建:本文从两个大型的医疗网站中爬取了大量数据,并将收集到的数据进行处理,包括实体、数据属性、关系的处理操作,然后构建了一个中文的医疗领域知识图谱。针对AS-KBQA模型,本文进行了两个实验以验证其准确性和适应性。实验1:选择Freebase开源数据(英文)作为知识库,在Simple Question、Yahoo QA和Web QSP三个数据集上进行实验,并且选取了近几年提出的六个问答模型用作对比实验。以精度作为每个模型的评价指标,在FB2M和FB5M两个数据集上,本文的AS-KBQA模型具有更好的效果。实验结果证明了基于知识图谱的答案选择模型能够提高知识库问答的准确性。实验2;选择本文构建的医疗领域知识图谱(中文)作为知识库,在MIE数据集上进行实验以验证AS-KBQA模型的适应性,实验结果表明该模型不仅能适应英文问答,也可以适应不同领域的中文问答。因此,本文提出的AS-KBQA模型拥有高准确性和强适应性,只需要扩展知识图谱中的信息就可以扩展问答系统的应用范围。
基于答案选择结合知识图谱的问答模型研究
这是一篇关于问答模型,答案选择,知识库问答,知识图谱,深度学习的论文, 主要内容为问答系统能够满足人们想要快速、准确地获取信息的需求。虽然目前学者们对问答系统的研究已经取得了很大进步,但仍然存在一些问题。目前大多数的问答系统都是基于问题与问题之间的相似度,或者问题与答案之间的相似度,当用户提出的问题超出系统的训练语料库的范围时,会导致算法预测答案的准确度下降。为了解决这一问题,本文将知识图谱的信息应用于问答系统中以扩展问答系统的范围。同时,为了更好的利用和学习知识库的信息,本文利用知识图谱的已知事实,结合答案选择(AS)和知识库问答(KBQA)的共同点,采用传统的问答模型来提高知识库检索的准确性。本文的主要内容包括以下几点:(1)AS-KBQA模型的设计:本文提出基于答案选择与知识图谱的问答模型,即AS-KBQA问答模型,该模型设计为三个模块:问题理解模块、答案选择模块和翻译模块。问题理解模块使用CNN与bi LSTM相结合的算法提取给定问题的实体以及问题与答案之间的关系,并通过大量的探索设计了一个提取实体的启发式算法。答案选择模块使用bi LSTM结合Attention和Soft Max的深度学习模型来选择一组候选答案实体。翻译模块包括三部分:1.使用BERT模型将知识库信息映射到向量空间,并将实体关系转化为空间向量;2.处理上两个模块传递来的数据;3.结合训练好的Trans R模型,检索出答案。(2)医疗领域知识图谱的构建:本文从两个大型的医疗网站中爬取了大量数据,并将收集到的数据进行处理,包括实体、数据属性、关系的处理操作,然后构建了一个中文的医疗领域知识图谱。针对AS-KBQA模型,本文进行了两个实验以验证其准确性和适应性。实验1:选择Freebase开源数据(英文)作为知识库,在Simple Question、Yahoo QA和Web QSP三个数据集上进行实验,并且选取了近几年提出的六个问答模型用作对比实验。以精度作为每个模型的评价指标,在FB2M和FB5M两个数据集上,本文的AS-KBQA模型具有更好的效果。实验结果证明了基于知识图谱的答案选择模型能够提高知识库问答的准确性。实验2;选择本文构建的医疗领域知识图谱(中文)作为知识库,在MIE数据集上进行实验以验证AS-KBQA模型的适应性,实验结果表明该模型不仅能适应英文问答,也可以适应不同领域的中文问答。因此,本文提出的AS-KBQA模型拥有高准确性和强适应性,只需要扩展知识图谱中的信息就可以扩展问答系统的应用范围。
基于对话文本的FAQ知识库构建技术研究
这是一篇关于问题识别,答案选择,多轮问答,FAQ,知识库的论文, 主要内容为智能问答是NLP领域的一个重要任务。2011年,以深度问答技术为核心的IBM Watson自动问答机器人在智力竞赛节目中战胜人类选手后,各大公司均加入到自动问答的研究和应用中。现有的智能问答系统以知识基础核心,包括以结构化文本为主的知识图谱和以非结构化文本为主的FAQ知识库。其中,知识图谱对简单事实类问题有很好的处理能力,但对事实陈述、推理、描述和观点类问题,其处理能力捉襟见肘。目前而言,FAQ知识库是后者最好的选择。但当前FAQ知识库的构建需要大量的人工参与,对问题和答案进行筛选审核,此项任务的工作量巨大且成本高昂。因此,FAQ知识库的自动化构建一直是智能问答领域的一个研究重点和难点。具体来说,自动构建FAQ知识库的困难在于非结构化文本的形式多种多样。无论数据的预处理、问题的识别和还是答案选择等,各阶段的工作均都有不小的工作量。而且,现有的答案选择算法并不能够达到很高的准确度。但非结构化数据的难点也是非结构化数据的优势,其存在形式广泛,数据量庞大,使得其应用场景相当丰富。基于此,本文选择从较为简单的对话文本入手,提出一个基于对话文本构建FAQ知识库的方法和思路。本文的主要工作有:问题识别、答案选择、多轮问答识别等。本文的思想是充分利用对话文本具有一定规则的特点,将基于规则的方法和基于深度学习的方法相结合。首先,对话文本本身就有句子和段落的分割。每一条对话内容都只涉及一个话题,不需要对文本进行段落或句子级别的切分;其次,对话文本中的信息较丰富,其不仅记录了对话内容,还保留了说话人、时间以及顺序关系;第三,对话文本在互联网的记录中存在很多的标识符,如“@”、“回复”、“点赞”等,通过这些规则能使得对文本的处理更加方便和简单。另一方面,深度学习在自然语言处理中已经表现出强劲能力。无论是传统的LSTM和CNN,还是现在非常流行的Attention机制和BERT预训练模型,其均在NLP领域取得了不小的成功,研究成果丰富。在现有研究成果的基础上,结合对话文本的特点加以调整和改进,使其能够适应于本文的研究对象和研究目的。正是基于以上两点,本文提出将规则和深度学习结合起来,实现FAQ知识库的自动构建。深度学习方法在公开数据集上的测试结果已经在大量论文中得以展示,本文的结果除在公开的中文问答数据集上进行测试外,还增加了以实际的微信聊天记录为测试数据的测试结果。最终,在5个对话文本,每个包含1000条,共计5000条微信聊天记录数据上,问题识别和答案选择的准确度分别为91.2%和80.0%。
面向非结构化文本的问答系统中答案抽取技术研究
这是一篇关于问答系统,答案抽取,深度学习,答案选择,机器阅读理解的论文, 主要内容为搜索引擎是用户获取知识和答案的重要渠道,通过用户在搜索框中输入的query,搜索引擎返回排序好的网页集合供用户浏览,用户需要快速浏览一些网页,根据自身的辨别能力找到目标答案的具体位置,整个流程费时费力。基于自然语言处理技术的问答系统是传统搜索引擎的重要改进方向,能够帮助用户获取精确简短的答案。维基百科,百度百科等非结构化文本是构建问答系统的重要数据来源。和基于知识图谱等结构化知识的问答系统相比,非结构化文本数据规模庞大而且容易获取,为了提高系统返回答案的准确性,首先根据问题的意图缩小答案候选句子集合,然后进行答案精确定位。本文针对问答系统中候选答案句子选择及精确答案定位技术进行了研究。对于候选答案句子选择,本文从两方面进行了研究:1)本文使用传统机器学习方法对问题句和答案句之间的关系进行建模,提取三个方面的特征:基于句子向量表征的相似度特征,基于词共现的特征以及句子本身的长度等基本特征,本文使用SVM和Xgboost分类器,给出问题句和每一个候选答案句子的分数,用于答案排序。2)本文还使用CNN,LSTM等深度学习模型对句子进行语义表示,采用pairwise方法进行训练,实验结果优于传统机器学习方法;对于精确答案定位的研究,本文将该任务看作机器阅读理解任务,提出了适用于阅读理解任务的baseline模型,并在该模型的基础上,对输入特征和模型结构进行改进:使用多层双向LSTM代替单层单向LSTM、引入注意力机制增加问题和答案句子的语义交互、增加预训练的ELMO词向量以及多个模型集成的方法提升EM和F1指标。实验证明,这些方法在基础模型上效果提升明显,适用于机器阅读理解任务。
面向医疗领域的答案选择方法研究与实现
这是一篇关于自然语言处理,答案选择,对抗训练,问答系统的论文, 主要内容为由于线下就诊压力的增加和线上问诊人数的增多,医疗自动问答系统的相关研究越来越多,该类系统为患者带来了便利,也作为辅助工具为医生减轻了压力。互联网以及深度学习的飞速发展也为自动问答系统的开发提供了坚实基础,其中答案选择技术是实现问答系统最重要的技术之一。为了缓解医疗压力和提升答案与用户问题匹配的精准率,面向医疗领域进行了答案选择方法的研究。相较于英文开放领域的问答匹配,中文专业医疗领域的问答匹配任务更具有挑战性。针对中文语义和医疗数据的复杂多样性,大多数研究人员都专注于设计繁杂的神经网络来试图获取文本更深层次的语义,工作思路较为单一,同时越复杂的神经网络模型越容易受到微小扰动的影响,导致模型的健壮性较差。为此,提出了一种基于RoBERTa引入对抗训练的问答匹配模型(AT-RoBERTa)。该模型利用双向预训练编码器来捕获问答句的语义特征从而得到对应的向量表征,再通过在词嵌入表示上添加扰动因子生成对抗样本,然后将初始样本和对抗样本共同输入到模型中进行对抗训练,最后通过线性层完成分类预测。按照软件工程开发的专业流程,设计并实现了一个基于所提模型的医疗问答系统。AT-RoBERTa在医学数据集上的实验结果表明,引入对抗训练可以有效提升问答匹配模型的性能,为自动问答功能的实现提供了新的思路。同时设计开发的问答系统的运行效果也证明了该模型在实际应用中的可行性,可以辅助医生工作,从而实现减轻线上问诊和线下就诊压力的目标。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://bishedaima.com/lunwen/55548.html