基于法律知识图谱的自动问答系统
这是一篇关于自动问答,知识图谱,法律智能,实体识别,关系抽取的论文, 主要内容为随着我国社会主义法律体系的逐步完善,人民的法律意识逐渐提高,对法律咨询服务的需求日益增加。但是目前我国律师仍属于稀缺资源,律师提供的法律解答服务无法适应迅猛增长的市场规模,律师的规模不能匹配如此庞大的法律咨询市场。从用户的角度出发,法律咨询成本较高,获取专业、免费且及时的法律咨询服务难以实现。从律师的角度出发,擅长领域不同,回复的质量参差不齐,法律问题琐碎繁杂,投入与报酬不对等,缺乏回答问题的动力。为用户提供快捷、免费且准确的法律咨询服务,提升法律服务质量,降低用户咨询成本和律师服务成本,缓解法律咨询服务的供需矛盾,才能做到“数字法治,智慧司法”,因此研究法律自动问答方法具有极强的应用价值与现实意义。本文对法律自动问答技术进行了深入研究,针对现有法律问答中难以快速定位答案、无法推理、受到问答库限制等缺点,设计并实现了基于法律知识图谱的自动问答系统。系统主要分为法律知识图谱构建模块、法律知识问答模块、法律知识检索模块、法律实体识别模块。针对目前法律问答模型对法律知识利用不足、人工回复专业性不强的问题,本系统以“国家法律法规数据库”法律数据为主,第三方法律服务网站和百度百科的数据为辅,经过本体构建、知识获取、知识提取、知识融合,构建了一个法律领域知识图谱。为了自动识别出法律问题中的法律实体,帮助计算机快速理解问句,提取法律知识主题,为问答模块,信息检索模块和知识图谱构建模块提供技术支撑,本文构建了一个基于ALBERT+Bi LSTM+CRF的法律实体识别模型,并基于BIO标注法构建了一个实体识别语料库,训练法律实体识别模型,实验结果表明在法律领域该模型具有优异的成绩。对于输入的法律问题,经过法律实体识别识别出相关法律术语、使用Fast Text抽取复杂问句的标签,调用法律知识检索模块返回了候选答案三元组。为了从候选答案三元组中挑选最终答案,使用ALBERT预训练做对问句属性抽取,实现了法律咨询服务的标准化、自动化、智能化。本文以基于Django框架的web应用为载体,为用户提供一个高效、专业且零门槛的法律知识问答系统。用户可以通过浏览器访问本系统,进行法律知识问答、法律知识查询、法律关系查询,系统根据输入的文本执行相应任务展示结果。系统使用知识图谱将法律领域知识和输入文本关联起来,并通过EChart绘制显示在界面。经实验,对于标准法律问题,回复的正确率达到86.08%;对于复杂法律问题,正确率达到69.04%,问题回答相应速度小于1秒,能够快速且相对准确的回答用户问题。
基于深度学习的开放领域自动问答系统的研究和应用
这是一篇关于深度学习,阅读理解,开放领域,自动问答的论文, 主要内容为开放领域自动问答系统旨在通过自然语言为用户提供快速便捷的信息获取方式,其在搜索引擎、智能数字助理(如小米公司的小爱同学)等方面具有广泛的应用,也越来越引起人们的注意。目前流行的自动问答系统主要包括社区问答和知识库问答,社区问答从内容社区中查找与用户问题相近的历史问题并且将其答案返回给用户作为用户问题的答案,知识库问答主要是将自然语言解析、转化为结构化的查询语句,然后查询知识图谱等知识库来获取当前问题的答案,并且答案通常为一个实体。在社区问答中,由于用户问题和已有问句都比较短,所以基于关键词匹配的检索模型很难达到较好的匹配精准度,而知识库问答由于词汇表和查询规则集都是人工编写的,所以随着数据库的扩大,最终都变得难以维护和扩充。因此,出现了一些基于神经网络技术的自动问答系统来缓解这些问题。本文主要研究自然语言阅读理解技术,并且以此为基础搭建自动问答系统,主要工作内容如下:本文提出了两个基于深度学习的机器阅读理解模型,其中一个模型是抽取式阅读理解模型,该模型最终从给定文本中抽取一个词或者连续的几个词作为问题最终的答案,另一个模型是生成式阅读理解模型,该模型结合给定文本,最终从预设的字典中自行生成答案。这两个模型都是直接对自然语言文本进行编码处理并生成答案,是端到端的模型。本文将上述模型与现有搜索引擎相结合,实现了一个基于阅读理解的开放领域自动问答系统,实验结果表明,系统综合性能优于已有的自动问答系统,并且具有良好的泛化性能,在开放领域的问题上具有较好的结果。
政务领域自动问答系统研究与实现
这是一篇关于政务服务,知识图谱,自动问答,命名实体识别的论文, 主要内容为近年来,我国的电子政务市场规模逐年增长,在线政务服务用户占整体网民比重越来越高,人们对于政务服务办事需求越来越多。目前许多省份推出了政务服务问答系统,但大都应用关键词匹配技术,到已有的数据库中查找与关键词相关的信息并返回给用户,或者构建常用问题库进行政务问答。现有系统中问题和问句相对固定,很难解决用户的实际问题。在政务服务问答系统中主要涉及一些服务事项,其描述具有有以下特点:1、办事事项数量多,事项之间存在关联。由于不同的行政区划,省级、市级、县级办事事项的总体数量庞大,办事种类也很繁杂,同时办事事项也并非独立存在,还存在一个事项关联其他事项、同一事项关联不同部门的情况。2、政务问答中问句特殊。由于政务办事事项存在部分名称较长、意义并列的情况,对于用户问句中政务办事事项的识别比一般的命名实体识别更为复杂。3、答案查找相对复杂。以简单的关键词匹配不能准确定位答案,以常见问题进行问答,用户不能自定义问题进行问答,只能询问固定的常见问题,同时由于事项之间存在关联,办事部门也并非独立存在,答案查找可能涉及推理过程。针对上述问题,本文的主要工作有:1)政务领域知识库构建:针对政务服务事项关联复杂的问题,通过基于Selenium的多线程爬虫系统对政务办事事项、常见问题数据进行抓取,抽取政务领域概念、属性、关系,并设计政务知识库的模式层,最终依据模式层构建政务知识图谱。2)政务领域问句理解:针对政务领域命名实体识别比一般的命名实体识别更为复杂的问题,研究了CRF、LSTM及句法分析等方法,构建了政务领域问句理解方法,使用基于BERT-BLSTM-CRF的命名实体识别的方法对用户问句中的命名实体进行识别,识别精度达到了92.23%。3)基于相似度和SPARQL的答案查询:针对答案查找相对复杂的问题,研究了相似度计算的方法、SPARQL查询方法,构建了基于TF-IDF相似度计算的常见问题答案查找方法,取得了78%的准确率并保证了较低的时耗。构建了基于SPARQL的政务知识库答案查询,利用分词、词性标注等自然语言处理技术对问句处理后查询政务知识图谱并返回答案给用户,取得了73%的平均准确率。最后采用Python语言,实现了政务服务领域自动问答系统,提供用户自定义问题的提问方式、分层次问答、满意度评价等功能,经评测,本文设计的政务自动问答系统对政务服务常见问题达到了77.3%的准确率,对政务服务事项问题达到了66%的准确率,系统回答与用户问题描述相关达到了91%的准确率。
基于深度学习及知识图谱的垂直领域问答研究
这是一篇关于知识图谱,深度学习,自动问答,文本增强,意图识别的论文, 主要内容为自动问答的目的是让机器理解人们提出的问题,并以自然语言的形式给出准确的答案,这项技术需要机器存储大量的背景知识。近年来,知识图谱技术的飞速发展,使得基于知识图谱的问答系统得到更多的研究。自动问答的研究领域可以划分为开放领域和垂直领域,本文主要针对医疗垂直领域进行研究。但研究中存在实际场景标注数据不足、机器在各个垂直领域对用户问题理解有偏差问题,因此,本文研究主要解决以上问题。首先,为解决训练模型标注数据不足的问题,本文基于自然语言建模和文本增强算法的最新进展,提出了一种融合面向表示和面向原文的文本增强方法,并利用反向翻译的技术提高增强后文本的多样性。在多个中英文数据集上分不同场景验证了本文提出的文本增强算法的有效性。然后,针对机器对用户问题理解有偏差的问题,本文通过对用户问题进行意图识别的方法来解决。基于已有的意图识别方法,本文提出了利用胶囊网络进行改进的算法。该改进算法具备胶囊网络的优势,解决了原来算法中在池化阶段导致一些特征丢失的问题。而且该算法将信息分层分组,以解决更复杂的问题。该算法在训练过程采用动态路由算法,从而增加了重要特征的权重,能够发现更多的隐藏特征,进而提高了意图识别的性能。最后,本文构建了医疗领域的知识图谱,并基于前文对文本增强和意图识别的研究,实现了医疗垂直领域的自动问答系统,验证了本文所提算法在实际场景中的可行性。此外,本文所提算法也可迁移到其他垂直领域。
面向法律领域的蒙古文知识图谱自动问答研究
这是一篇关于蒙古文,自动问答,知识图谱,实体抽取,属性抽取的论文, 主要内容为随着我国法律体系的逐步完善,群众的法律咨询需求量与日俱增。现如今蒙古族群众仍停留于人工咨询的方式,导致法律咨询量和律师资源失去了平衡,致使法律从业人员的人力成本变高,蒙古文法律自动问答则可以有效地缓解人工法律咨询供不应求的状态。蒙古文法律问答面临专业性强、从业人员少和数据资源少等难点,引入法律知识图谱能增强问答过程中的法律专业性。本文对面向法律领域的知识图谱自动问答技术进行研究,针对现有法律问答中受到问答库限制、无法推理以及回复专业性低等缺点,设计并实现了面向法律领域的蒙古文知识图谱自动问答系统。主要研究内容有:(1)法律领域自动问答蒙古文数据资源建设本文首先对现有中文法律数据资源进行收集、筛选、翻译、人工校正、自动校正等一系列处理,构建了15万对蒙古文法律问答语料库。然后从蒙古文问答语料中构建了17400句子的实体标注语料库以及16200句子的属性标注语料库,为问句语义解析提供数据支撑。最后,针对缺少蒙古文法律领域知识图谱的现状,构建了857个实体的蒙古文法律罪名相关知识图谱。(2)面向法律领域的蒙古文实体抽取研究首先采用BiLSTM-CRF模型研究了蒙古文法律实体自动抽取方法。为增加模型的泛化性,选择了少数民族多语言预训练模型CINO,研究了基于CINO-BiLSTM-CRF实体抽取模型。另外,为了利用Transformer模型和BiLSTM模型在上下文长距离依赖特征和方向性特征提取方面的有效性,将Transformer模型和BiLSTM模型相结合进行特征提取,研究了基于Transformer-BiLSTM-CRF蒙古文实体抽取模型。实验结果表明,引入CINO预训练模型能有效地提高训练数据少的实体在BiLSTMCRF模型的泛化能力,CINO-BiLSTM-CRF模型在P、R和F1值上都有所提升。通过结合Transformer和BiLSTM模型的特征提取能力,同时捕获长距离和方向性特征,因此Transformer-BiLSTM-CRF取得了综合最优效果,F1值达到了93.30%,在嵌套实体上的表现也是最优的。(3)面向法律领域的蒙古文属性抽取研究在基于多语言的少数民族预训练CINO模型的基础上,设计了CINO-BiLSTM-Attention和CINO-BiGRU-Attention两种蒙古文属性抽取模型。实验结果表明,在蒙古文句子上利用BiLSTM模型进行特征抽取更优于BiGRU模型,CINO-BiLSTM-Attention模型在P、R和F1指标上均高于CINO-BiGRU-Attention模型。(4)面向法律领域的蒙古文知识图谱问答系统针对检索式法律问答结果受到语料库限制的缺点,本文通过蒙古文法律知识图谱辅助检索来提高问答准确率。系统主要分为问句语义解析模块、知识图谱检索模块和检索式自动问答模块。首先,利用蒙古文法律实体抽取模型、属性抽取模型对蒙古文问句进行语义解析。然后将知识图谱问答系统与检索式问答系统相融合,提高了面向法律领域的自动问答系统的回复准确率,在检索式问答系统上准确率提升了2.13%。
面向智能教育的学科知识自动问答系统研究与实现——以中学数学学科为例
这是一篇关于智能教育,学科知识图谱,自动问答,深度学习,关系抽取的论文, 主要内容为信息时代的教育正面临着从学习规模化向个性化的转变,我国教育生态变革和重构充满机遇和挑战。智能教育是以人工智能、大数据、物联网为代表的智能技术与教育深度结合,具有个性化、终身化等特征。为此,满足学习者的知识检索和个性化学习需求,同时支撑和服务于教师教学工作,贯彻“以学生者为中心”的育人思想和泛在学习理念,开展有关研究具有重要意义。本文以中学数学学习的个性化为切入点,探索面向智能教育的教学环境条件的构建,开展基于知识图谱的学科知识自动问答系统关键技术研究与实现,以期在一定程度上实现个性化学习服务,主要完成了以下工作:(1)构建学科知识图谱。采用自顶向下的方式,首先利用人工、爬虫和OCR技术相结合的方式,选取教材、考纲、百度百科、专题网站等数据源对知识数据采集,并进行数据清洗和存储,然后定义中学数学本体,使用BERT-Bi LSTM-CRF模型进行中学数学知识点命名实体识别。针对关系抽取任务中出现的数据噪声和分类模型中出现的梯度消失等问题,研究提出一种远程监督关系抽取模型。设计了知识存储方案,形成学科知识图谱。最后构建数学知识点实验数据集,设置关系抽取和命名实体识别相关实验,对结果进行详细分析。(2)设计基于学科知识图谱的自动问答方法和系统,完成了可行性分析、需求分析、功能需求等,进而设计了系统整体架构以及主要功能模块。对于自动问答方法,将其分为问题识别与预处理模块、答案检索与问题生成模块。问题识别与预处理模块的主要方法为问题分类、中文分词、词性标注以及语义依存分析等。在答案检索与生成模块中,通过构造查询模板进行答案检索,利用莱文斯坦算法对候选答案排序,最后设计答案嵌套模板完善对于用户的回答。(3)实现学科知识自动问答系统。主要采取B/S系统架构,在基于Django、Element UI、Tensor Flow深度学习框架等组成的开发环境上完成代码编写,并进行系统测试以及系统页面展示。
心血管知识图谱的构建与应用研究
这是一篇关于知识图谱,自动问答,命名实体识别,实体对齐,对抗训练的论文, 主要内容为近年来,心血管病成为我国疾病负担和居民死亡的首要病因。随着医疗服务的信息化管理和数字化发展,医疗领域积累了大量的自由文本。如何从这些数据中提炼信息,并加以管理及应用,是推进智慧医疗建设的关键问题。本文旨在从心血管临床诊疗文献中自动提炼出有效的辅助诊断信息构建心血管知识图谱,并应用于自动问答系统,为医患提供高效精准的心血管资讯服务。具体内容如下:(1)研究基于多头标注和负采样的非结构化知识抽取。针对中文临床诊疗文献的关系重叠问题,采用多头标注策略,对主流模型TPLinker进行特征改进,并通过负采样与动态权重的方法处理负样本过多的问题。为了提高模型的泛化能力,解决标注语料匮乏问题,从同义扩展、参数共享两个方面对文本数据进行增强。所提方法在心血管临床诊疗文献数据集以及公开的数据集上F1指标(精确率和召回率的调和均值)分别提高了5.73%、2.12%。(2)研究多数据源知识抽取下的实体对齐问题并构建心血管知识图谱。针对多源异构导致的知识重叠、知识碎片化问题,提出基于检索和重排序的实体对齐方法。所提算法在自有数据集及公开数据集上F1指标分别为83.04%、80.52%。最后结合知识抽取、实体映射以及知识存储等模块构建心血管知识图谱。(3)研究基于语义解析的知识图谱问答方法。首先对医疗问答场景下的实体识别进行研究:改进Albert的嵌入层,以混合编码的方式融合字、词信息并利用字匹配的方式实现实体链接。所提方法在自有的问答数据集上F1指标为92.97%,比单纯基于字编码F1指标提高1.81%。接着基于Albert实现关系属性的匹配,并引入对抗训练机制提高模型的鲁棒泛化能力。该方法在自有数据集以及公开数据集上准确率分别提高3.50%、3.21%。最后通过实体识别、关系属性匹配等模块的组合完成自然问句的语义解析。基于上述研究,本文实现了心血管知识图谱的构建并将其应用于自动问答系统中。
基于属性图的金融领域自动问答系统的研究与实现
这是一篇关于语义解析,自动问答,知识图谱,深度学习的论文, 主要内容为在大数据时代,人们对于信息检索的效率和准确性提出了新的要求。自动问答系统作为一种高级的信息检索方式,得到了广泛关注。知识图谱通过结构化的表示形式来存储各种知识,有效提升了信息检索的准确性,成为了自动问答系统的重要数据支撑方式。但是,目前基于知识图谱的自动问答系统仍然存在着一些问题:一是更多着眼于开放领域,缺乏垂直领域的深入研究。金融领域中实体名称较长且问题含有复杂约束较多,现有问答算法不能很好的解决;二是缺乏对复杂自然语言问题的语义理解能力,其中包括关系推理能力较差、实体识别边界模糊不清以及隐式条件约束识别困难等。针对上述问题,本文主要进行了以下研究:(1)研究并实现了基于属性图的自动问答方法。本文通过对现有问答模型进行原理分析和模型改进,设计并实现了一个基于属性图的自动问答方法。该方法通过语义解析的方式理解自然语言问题,并将其转换为逻辑查询语言,最终到属性知识图谱中查询问题答案。属性图易于存储金融领域的相关知识,同时其查询语言能够很好的表征带约束条件的复杂问题。实验表明该方法表现良好,有效的优化了自动问答方法在回答金融领域复杂问题方面的能力。(2)研究并实现了基于联合语义嵌入的隐式提及识别算法。为了进一步增强自动问答模型的关系推理能力,准确识别问句中可能隐含存在的一些约束条件,本文在所提出的自动问答方法的基础上,提出了一种基于联合语义嵌入的隐式提及识别算法。该方法将问句信息与属性图谱信息相结合,针对金融领域中的隐含约束问句进行隐式提及推理,从而进一步增强了问答的准确性。(3)设计并实现了金融领域自动问答平台。本文通过收集网络上的金融领域相关知识,搭建了一个金融属性知识图谱。并将此作为数据基础,以所提出的自动问答方法为核心,结合金融领域行业需求分析,设计并搭建了一个金融领域自动问答平台系统。该系统在回答用户的自然语言问题的同时,还能够为用户提供高效的信息检索以及图谱可视化等服务,并且成功通过了系统测试。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计货栈 ,原文地址:https://bishedaima.com/lunwen/48006.html