基于知识图谱的肝脏疾病问答系统的研究与实现
这是一篇关于肝脏疾病,命名实体识别,知识图谱,问答系统的论文, 主要内容为据统计,2020年中国慢性肝病患者人数超过2.47亿,肝脏疾病正严重侵蚀着国民的身心健康,然而太多患者往往缺乏对肝脏疾病的充分认识,导致贻误了治疗的最佳时机甚至病情加重。互联网行业的迅猛发展将我们带入了一个信息爆炸的时代,如何在鱼龙混杂的互联网信息中高效便捷地检索到我们所需要的信息,成为当下研究者的一大难题。知识图谱和问答系统的发展进步,为智能查询提供了便利。本文基于深度学习模型研究了命名实体识别任务,以此增强系统的问句解析能力,并结合知识图谱的构建,搭建了关于肝脏疾病的问答系统,为用户提供科学准确的肝脏疾病医疗知识,解决问诊需求。本文主要研究内容如下:(1)运用ALBERT-Bi LSTM-CRF模型进行医疗实体识别实验。使用爬取到的问答数据集在ALBERT层进行训练,获取包含文本语义信息的向量表示;然后将句子向量的语义表征信息嵌入到Bi LSTM层进行特征的提取,计算每个词语对应的最大概率标签;之后由CRF层对模块进行解码,得到与输入序列对应的最优标签序列,即为命名实体识别的结果;最后使用未标注数据集进行模型测试,最终取得了准确率92.38%,召回率90.74%,F1值91.55%的良好识别效果,并且相比其他主流实体识别模型缩短训练时间且减少了系统资源的占用。(2)构建关于肝脏疾病的知识图谱。首先将医疗网站上爬取到的半结构化和非结构化数据进行清洗和知识抽取,以json格式保存在文件中,然后定义实体、关系、属性类型并做标准化处理,实体对齐并进行知识融合,再构建知识三元组,将数据保存在csv文件中,最后选用Neo4j数据库进行存储,构建相应的知识图谱。(3)设计实现肝脏疾病问答系统。将上述研究成果运用到系统搭建中,通过解决语义解析和答案检索的核心任务,将用户输入的提问转换为图数据库Cypher查询语句,再到Neo4j数据库中进行检索并返回结果到前端界面,最终实现了该系统的问答功能、图谱展示功能、知识库管理功能和用户管理功能。通过以上工作,在完成命名实体识别研究和知识图谱研究的基础上,搭建了肝脏疾病智能问答系统,系统可以解答用户提问和展示相关问题的知识图谱,解决了用户的线上问诊需求和医疗信息获取需求。
水利领域知识图谱构建系统研究
这是一篇关于水利领域,知识图谱,本体半自动构建,命名实体识别,可视化的论文, 主要内容为随着我国水利信息技术的发展,水利领域中出现了越来越多的优秀系统,这些系统在近些年来积累了海量的水利领域相关数据,这些数据大多都储存在各自的系统之中,没有被充分的利用起来。知识图谱技术具有强大的语义处理和互联组织能力,可以有效的将这些积累的数据组织起来,充分挖掘数据价值,实现水利信息资源的高效利用。知识图谱可以认为是由本体与数据组成,对本体进行数据的填充即构成了知识图谱。本体的构建可以认为是知识图谱构建的基础,而知识图谱的数据部分则是知识图谱与现实世界产生映射的关键。传统的本体构造通过领域专家手工构造或者从文本中自动抽取构造,存在代价昂贵或准确性差的问题,近年来结合机器与人工的半自动本体构建方法备受关注,这种方法既利用了机器的运算能力,也保障了构建本体的准确性。而随着深度学习技术的发展,利用神经网络从文本数据中抽取实体的技术也越来越成熟,但是由于领域知识的专业性,在通用领域中表现良好的模型在垂直领域中可能会表现较差。基于上述背景,本文对水利领域现存数据进行了研究与分析,设计并实现了一种半自动迭代构造水利领域本体的方法。该方法利用水文学本体与水利领域专业辞典,使用自上而下与自下而上的方法完成水利领域本体构建。其中,自上而下的部分复用了部分水文学本体,在保证本体质量的前提下也为自下而上的本体构造提供了结构基础。自下而上的则是指从《水利大辞典》中提取概念与关系,然后迭代的将概念与关系等数据融入基础本体之中,既保证了本体的来源足够权威,也保证了本体构建的准确性。在拥有水利领域辞典的情况下,本文考虑使用词汇增强方式对神经网络模型进行识别效果的提升,以保证模型标注实体的准确性,最终构建了一个能够引入外部字典的神经网络模型。最终,将本体与数据结合,成功构造出水利领域知识图谱,并在此基础上设计实现了水利知识图谱的可视化编辑平台,该平台支持多种方式对知识图谱数据进行搜索,并且可以通过可视化的方式对知识图谱数据进行编辑。
基于知识图谱的糖尿病问答系统的研究与应用
这是一篇关于糖尿病,问答系统,命名实体识别,知识图谱的论文, 主要内容为近年来,随着我国居民消费水平的提升以及人口老龄化进程的加快,糖尿病患者数量大幅度攀升,且发病群体年轻化趋势明显。据调查显示,糖尿病的有效防治手段包括糖尿病知识教育、自我血糖监测、健康饮食等,而“互联网+”医学教育科普服务多年来积淀了大量的数字化诊疗信息。因此,研究如何利用互联网帮助用户简单有效地获取糖尿病防治知识是本文研究的重点。通过传统的搜索引擎查询知识,用户得到的是冗余的数据,难以快速精准地获取到知识。问答系统对用户问句进行语义解析,可以实现根据用户的意图反馈答案,知识图谱则可以实现大规模数据的整合,可利用查询语句从中查询有效数据。因此,本文研究并实现了基于知识图谱的糖尿病问答系统,并采用基于深度学习的命名实体识别模型增强系统问句解析能力,经测试,该系统可快捷、准确地为用户解答糖尿病防治知识,同时也响应了国家智慧医疗的政策。本文主要研究内容如下:(1)构建糖尿病领域的知识图谱。基于Python的网络爬虫技术,从“寻医问药”等医疗网站爬取糖尿病相关信息,并对数据进行清洗处理与知识抽取。为提升知识图谱的质量以及知识表达能力,将知识抽取后的数据与Dia KG知识图谱数据集进行多数据源知识融合,完成糖尿病领域知识图谱的构建与持久化。(2)研究命名实体识别算法。首先从糖尿病中文社区收集医疗问答数据集作为命名实体识别的自建语料集,并对数据集进行分词和实体标注,然后研究并构建了基于BERT+Bi LSTM+CRF的命名实体识别模型,在CCKS-2017数据集和自建数据集上分别进行了实验并做了结果比对,验证了该模型相较于其他模型而言,识别效果提升明显。(3)构建完整的糖尿病问答系统。基于上述研究成果,通过基于模板匹配与基于语义分析相结合的方式实现问答系统,具体实现流程包括:中文分词、问题分类、问句实体识别、句法依赖分析、查询语句构建与知识检索。已构建好的糖尿病知识图谱作为问答系统的数据源,利用Flask框架和D3.js工具对系统进行包装,通过浏览器访问的方式请求服务,最终实现自动问答功能和知识图谱可视化功能。本文通过以上工作,首先完成一个高质量的糖尿病知识图谱,接着采用深度学习技术改进问答任务中系统对用户问句的语义解析能力,最终实现一个能够切实方便的解决用户问诊需求的糖尿病问答系统。
简要案情的命名实体识别技术研究
这是一篇关于命名实体识别,简要案情,卷积神经网络,多头自注意力,预训练模型的论文, 主要内容为近年来,随着警务信息化的程度不断提高,简要案情文本呈现几何数增长的趋势,从海量简要案情文本中挖掘出重要性信息成为亟待解决的难题。简要案情命名实体识别旨在从非结构化文本中提取出结构化数据,有利于构建警务知识图谱和搭建警务问答系统,对于全面实现国家治理能力现代化具有重要的意义。命名实体识别对于警务文本的下游任务的开展具有重要性意义。但是业内对于警务命名实体识别的关注程度不高,导致警务命名实体识别仍处于起步状态。本文主要的工作内容如下所示:(1)针对警务领域无统一标准的标注数据,本文对某省公安机关提供的2576份简要案情数据集进行数据清洗、BIO标注,构建了规范化的简要案情命名实体识别数据语料。(2)针对RoBERTa预训练模型处理后的字符向量存在冗余信息,从而导致模型参数收敛速度缓慢和基线模型Bi LSTM-CRF在提取字符向量细粒度特征方面存在不足的问题,本文提出了基于卷积神经网络(Convolutional Neural Network,CNN)的简要案情命名实体识别模型。该模型通过改进的字符向量生成方法对简要案情数据的字符进行了有效的表示,生成字符向量,通过该方法中合理设计的卷积神经网络层对字符向量的局部细粒度特征进行提取,降低了字符向量维度,解决了预训练模型带来的字符向量冗长的问题,框架参数量的减少促使模型整体参数收敛的速率大幅度提高。为弥补一维卷积层在字符序列上下文特征和依赖关系提取的缺陷,在模型中引入Bi LSTM(Bidirectional Long-Short Term Memory)层,最后利用CRF(Conditional Random Field)层对文本序列标签进行约束输出。(3)针对简要案情文本中存在实体稠密分布、实体间相互嵌套以及模型的识别能力弱等问题,本文提出了基于多头自注意力(Multi-Head Self-Attention)机制的命名实体识别技术,即BM-Bi LSTM-CRF。该方法使用BERT(Bidirectional Encoder Representation from Transformers)预训练模型增强训练语料的语义表示,并根据上下文特征动态生成字向量,通过多头自注意力与Bi LSTM对字符序列上下文特征、依赖关系和语义关联等多方面特征进行精确捕捉,经CRF模块对标签层进行规范地约束得到输入文本的标注序列。(4)使用本文提出的简要案情命名实体识别模型,开发了基于Flask框架的简要案情命名实体识别Web应用。简要案情命名实体识别应用采用B/S(Browser/Server)架构进行设计,支持在线提取简要案情文本的实体,可以辅助警务人员分析警情,也可以为下游任务的建设提供技术支持。
基于深度学习的医疗命名实体识别
这是一篇关于命名实体识别,语义分割,注意力机制,条件随机场的论文, 主要内容为深度学习与医疗领域的结合是其中一个热门的方向。人们试图从大量的医疗文本数据挖掘出有价值的信息。例如,通过医疗相关的文本构造知识图谱,从而对医疗领域的知识进行可视化,也可以设计基于图谱进行推理的自动对话、自动问答系统,为患者和医生根据现有病情描述快速诊断提供辅助。而为了形成知识图谱,首先必须的完成是命名实体识别、关系抽取等前置任务。在命名实体识别中,因为分词再标注的方法存在传递分词错误的问题,所以通常基于字粒度的模型的表现优于基于词粒度的模型。在通用领域中,通过引入词典信息增强可以提高模型性能,但目前的结合词典增强的模型难以批量化计算,训练与推理效率较低。而在中文的医疗命名实体识别中,存在大量专业语义词汇。这使得基于词典的模型在任务中的性能提升不如在通用数据集上明显。图像语义分割与命名实体识别任务均可被看做是序列标注任务。语义分割任务下有基于深度学习的较为经典的解决方案,可以被命名实体识别任务所借鉴。同时,基于深度学习的绝大多数方法,普遍在模型的最后一层使用条件随机场进行解码,这个算法使得模型的推理速度在长文本下表现较差。在本文中,我们所做的工作如下:(1)对比了图像语义分割与命名实体识别两个任务的相似性,提出借鉴图像语义分割的方法,尝试将语义分割的经典模型FCN经过修改后应用于命名实体识别任务。该模型仅由多层卷积层与转置卷积层构成,可以同时结合高维与低维的N-gram语汇信息,在无需使用词典信息的情况下,达到了一定水平的精度指标,同时实现了较快的计算速度,拥有和业界常用的基准模型相比有竞争力的性能表现。(2)对替代CRF层的可行性进行实验。将前人提出的基于标签的注意力机制作为解码层,进行改进,增加自注意力计算,使注意力机制计算时可以结合全局信息,从而提高性能表现。使用改进的LAN大幅度提高了解码层的推理速度,同时得到了与使用条件随机场解码相近的性能。
面向电力安全作业实体关系抽取及图谱构建研究
这是一篇关于命名实体识别,电力安全作业,关系抽取,深度学习,知识图谱的论文, 主要内容为随着大数据时代的来临,电力安全作业产出了海量数据,这些数据通常非结构化,难以进行处理。知识图谱技术服务于各行各业,在电力行业中构建电力领域知识图谱也是当下研究热点。对于上述问题,本文主要研究如何从海量的电力安全文本数据中获取电力作业实体以及关系,完成信息抽取工作,进而构建电力安全作业知识图谱。首先,本文针对搜集的电力安全作业数据进行预处理。文章分析了语料集特点,针对句子冗余、长短句、主语缺失等问题采取了噪声信息去除、分句和补充主语等措施。采用语言技术平台并结合现有的电力词典处理语句,进行分词、依存句法分析处理工作,分析句子成分制定标注策略对语料集进行标注工作。进而,完成电力安全作业实体的识别。提出了融合注意力与改进双向GRU的实体识别方法针对主谓宾三类实体以及“基本规定”、“设备安全”、“施工现场”“作业安全”、“装置安装”、“组织、技术措施”6种分类的语料集进行处理。本文方法采用轻量级BERT作为语义编码层捕捉更多的语义信息,融合注意力机制的Bi GRU作为标签预测层捕捉长句子依赖,利用CRF解决了优选词标签的局部最优问题。最终在6类数据集的表现上F1值平均达到88.73%,也与主流深度学习模型进行对比实验,证明了本文算法性能的优越性。接着,完成了实体间的关系抽取。在识别出实体的前提下,进行了实体间关系的抽取。提出基于Text CNN改进的算法模型实现关系抽取。根据语料集特点及预处理方式,定义了“性质属性”、“包含关系”、“动作类关系”、“数量关系”、“其它”5种关系类型。在输入层映射层添加注意力机制,改进卷积池化层方式,采取了两层卷积池化,池化分别使用了1/2池化和最大池化来捕捉更长距离的文本字句语义信息。设计实验与主流模型进行对比,实验结果的F1值均低于本文模型的80.41%。最终,构建电力安全作业知识图谱。通过完成电力安全作业命名实体识别和关系抽取,定义了电力安全作业三元组的表示方法。使用图数据库Neo4j可视化知识图谱,基于数据库检索。
基于深度学习的半监督式命名实体识别
这是一篇关于命名实体识别,半监督,LSTM,相对熵,顺序遗忘编码的论文, 主要内容为命名实体识别是自然语言处理的一项基础任务,也是机器翻译、智能问答、知识图谱等相关领域的底层技术。深度学习技术因其自动高效的特征表达与分类能力在命名实体识别任务中已取得巨大的进展。现有的深度学习命名实体识别方法大多为有监督的训练方法,没有利用无标注数据来增强模型的泛化能力。因此,本文针对半监督的命名实体识别方法进行了研究。论文主要工作内容如下:本文首先对中文和外文命名实体识别方法的研究现状进行了调研,分析和总结了基于统计和基于深度学习的命名实体识别方法原理,在总结了各方法优缺点的基础上,提出了一种半监督的命名实体识别方法。利用大量的无标注数据创建与有标注数据的相似句来约束训练语料的标注序列,减少了模型对有标注数据的依赖。实验表明,创建的相似句可以有效的纠正训练语料的标注序列。该模型在SIGHAN Bakeoff MSRA中文命名实体识别数据集中F1值取得了92.13%,与基线模型相比提高了0.41%。其次,为了使长短时记忆网络更精确的提取句子较远的特征信息,提出了一种融合顺序遗忘编码结合循环神经网络的命名实体识别算法。将顺序遗忘编码的静态编码方式与循环神经网络的动态遗忘方式相结合,增强了模型对句子特征的提取能力。将提出的模型结构分别用于英文和中文两种语言的数据集中,F1值分别取得了91.30%,91.65%,有效的验证了该方法的通用性及有效性。综上所述,本文利用深度学习方法分别以半监督和有监督的方式对命名实体识别方法进行了研究和改进,分别以加入外部数据和修改模型内部结构的方式进一步提升了模型效果,实验结果验证了所提出方法的有效性。
面向电力设备诊断的知识抽取方法研究
这是一篇关于知识图谱,命名实体识别,关系抽取的论文, 主要内容为知识抽取可以将半结构化和非结构化的文本类数据转化为结构化的数据,为构建知识图谱,问答系统,知识库建立等自然语言处理领域的子任务所使用。而在现实应用中,知识抽取面临许多的挑战,一方面对于中文命名实体识别(NER)任务,只有非常少量的标注数据。中文命名实体识别和汉语分词(CWS)任务有许多相似的词边界。每个任务中也有特定的特性。然而,现有的中文命名实体识别方法要么没有充分利用语料中的词边界信息,要么无法对语料中的特定信息进行过滤。另一方面,对于关系抽取,没有办法充分利用所有含信息的句子,并且经常出现错误的标注。针对这些问题,本文研究了现有的中文命名实体识别和关系抽取模型,整理分析了其优点和不足,提出了两种模型。主要有如下工作内容:1)针对没有充分利用语料中的词边界信息的问题,本文提出了一种新的对抗迁移学习框架,以充分利用任务共享边界信息,防止任务特定特征。此外,由于任意字符可以在预测实体类型时提供重要线索,我们利用自我注意力机制来显式地捕捉两个标记之间的长期依赖关系。实验结果表明,本文提出的模型显著且一致地优于其他传统方法。2)针对不能抽取重叠和多重关系的问题,本文提出了一种基于新分解策略的端到端序列标注框架,用于实体和关系的联合提取。实验结果表明,对原任务的功能分解简化了学习过程,获得了更好的整体学习效果,在三个公共数据集上达到了新的水平。进一步的分析表明,我们的模型能够处理正常的、重叠的和多重关系的提取。3)将本文提出的两种模型应用于电力设备诊断平台的构建中,实现了电力设备文本的实体识别及关系抽取。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码驿站 ,原文地址:https://bishedaima.com/lunwen/46268.html