面向中医药领域的命名实体识别方法研究
这是一篇关于命名实体识别,中医药,嵌套实体,仿射变换,预训练语言模型的论文, 主要内容为人工智能技术的广泛应用与国家政策的大力支持加快了中医药数字化发展的步伐,中医药数字化发展既是民生之需,也是弘扬民族优秀文化之举。中医药知识图谱的构建、寻医问诊对话系统的搭建等任务是当下火热的研究方向,而上述任务能否顺利进行,能否高效运行,命名实体识别技术都发挥着举足轻重的作用。命名实体识别技术作为中医药数字化发展的基石,旨在从中医药文本中识别出关键实体,面临着诸多挑战。除了中文命名实体识别本身固有的弱点之外,中医药文本专业性极强,文本相对白话文更晦涩难懂;文本格式不均衡,或长或短,截断、补全都有损文本语义完整性。针对这些痛点,本文做了如下工作:1、构建标准数据集。利用爬虫等技术搜寻中医医案、中医药说明书等原始数据,完成数据清洗之后,采取人工及自动化标注,共计药物名称、药物成分、药物性味、药物剂型、药物功效、疾病、症状、症候八类主要的实体。2、基于预训练语言模型提出两种针对性较强的中医药文本命名实体识别方法。中医药领域的实体都是专业术语,其语义信息的捕捉较难且极为关键。之所以选择预训练语言模型是因为其在语义表示方面的巨大优势,有助于增强中医药文本语义表示,从而使得文本特征提取更为准确。3、针对嵌套实体的优化。嵌套实体的存在很大程度上影响着识别效率,为此本文引用计算机视觉领域常用的仿射变换技术并加之改进,从丰富语义表示层面减少嵌套实体对命名实体识别的干扰。最后在自建的数据集上展开充分实验。结果表明进行嵌套实体优化之前,药物功效类实体的识别效果最佳,其准确率、召回率、F1值分别达到了93.11%、92.45%、92.78%。融合仿射变换机制后,各类实体的识别效果都有所增强,其中药物成分类实体的准确率提高了8.23%。实验数据分析结果表明了本文针对中医药领域提出的命名实体识别方法的可行性和有效性。
基于知识增强和卷积神经网络的实体识别方法研究
这是一篇关于命名实体识别,知识增强,卷积神经网络,注意力机制,嵌套实体的论文, 主要内容为命名实体识别作为自然语言处理领域一项十分基础的任务,近年来受到广泛的研究重视。该任务的根本目的是从一段用自然语言描述的文本中识别出相应的实体及其类型。知识图谱作为以三元组形式存在的外部知识,已经在很多自然语言处理任务中得以应用并取得良好效果。现有的大部分研究方法中忽略了外部知识以及特征提取对命名实体识别任务的帮助。基于上述存在的问题,本文的主要内容如下:(1)研究了将外部知识融入命名实体识别模型的方法。针对目前大多数方法只是简单的将预训练语言模型和预测层相结合,忽略了外部知识对句子语义的正面作用导致不能充分学习各个词之间的语义信息的问题,本文提出了一种基于知识增强的注意力对齐命名实体识别方法。首先通过嵌入层和注意力机制嵌入知识图谱信息,获取知识图谱三元组信息的表示;其次通过BERT-BiLSTM获取句子的上下文表示;然后通过一种注意力对齐模块分配三元组权重融合知识图谱信息与句子信息的表示;最后通过softmax控制融合后的表示向量的预测输出,进而获取实体的标签。该方法有效避免了由于知识图谱的融合改变原句子的语义信息,同时也使句子中的词向量具有丰富的外部知识。实验结果证实了该方法相比部分基线模型在效果上有所提高。(2)研究了将卷积神经网络运用于命名实体识别任务的方法。针对目前大多数命名实体识别任务模型只能解决单一的连续实体识别而在嵌套实体识别任务上表现不佳的问题,本文研究了一种包含卷积神经网络的编码-解码模型来同时解决不连续实体以及嵌套实体识别的方法。该模型由编码层、卷积层和预测层三部分组成,编码层采用DeBERTa和GRU对句子特征进行提取;卷积层采用多粒度卷积;预测层采用多头注意力机制和MLP机制实现对词-词关系的预测从而解决嵌套实体识别的问题。实验同样表明本研究在不连续以及嵌套实体识别任务上的结果相比大部分现有模型有所提高。(3)开发设计了一个用于在线识别文本中实体的可视化命名实体识别系统。系统用户可以通过注册账号后登录到系统平台使用,在使用系统时可以使用该平台提供的平面实体和嵌套实体识别的服务。同时,管理员登录到系统平台后可以通过后台监控功能查看用户使用情况,从而对系统实时状况有所掌握。综上所述,本文基于平面实体识别和嵌套实体识别分别提出了基于知识增强和卷积神经网络的命名实体识别模型,实验结果证明了本研究提出的模型相比于现有的部分基线模型效果得到了提高。最后,在这两个模型基础上设计了一个在线命名实体识别系统调用这两块功能供用户使用。
危险化学品事故信息命名实体识别方法研究
这是一篇关于危险化学品,嵌套实体,命名实体识别,主题聚类,主动学习的论文, 主要内容为化学工业作为我国重要的基础性产业,推动着国民经济快速发展。然而由于危险化学品(危化品)不稳定的理化性质,其在生产、运输和储存过程中均存在巨大风险。一旦发生事故就会给人民生命健康带来重大威胁,给社会和谐稳定带来极大挑战。为落实安全生产,应急管理部门就危化品安全生产提出“智能化事故信息反馈”与“建立相关应急资源知识图谱”。因此,面向危化品事故领域的命名实体识别逐渐成为现阶段研究热点。本课题围绕危化品事故数据,应用自然语言处理技术,探究危化品事故致因图谱的构建,为危化品的安全生产、运输、存储、应急处置等提供有力的数据支撑和科学的处理方法。本课题主要工作包括以下几个方面:(1)融合规则模板和Global Pointer的危化品事故实体识别。根据危化品事故实体特点对危化品事故数据进行划分:一类具有明显结构特征,格式相对固定(如:日期、时间等);另一类结构特征不明显,表述形式多样、多种实体相互重叠、相互嵌套(如:组织机构、事故原因等),提出融合规则模板和Global Pointer的危化品事故实体识别方法。对于第一类实体,抽象其结构特征,设计规则匹配模板进行识别。对于第二类实体采用基于Global Pointer的模型进行识别。真实数据集下的实验结果验证了本文提出的方法在危化品事故领域的实体识别效果高于目前流行的实体识别方法。(2)融合样本不确定性和多样性的危化品事故实体主动识别。针对危化品领域缺乏标注语料问题,借助主动学习选出高质量样本进行标注,提出融合样本不确定和多样性的危化品事故实体主动识别方法。首先,利用隐含狄利克雷分布进行主题聚类,选出具有代表性的初始样本。其次,综合考虑样本信息量、多样性以及初始主题聚类信息,通过对样本的不确定性和多样性进行评估,选出综合得分较高的样本进行标注并加入模型训练。最后,根据模型F1值设定主动学习终止条件,结束整个迭代过程。实验结果表明,本研究提出的方法能够有效减少数据标注工作并提升整体识别F1值。(3)危化品事故信息实体识别系统设计与实现。应用本文的研究成果,设计并开发危化品事故信息实体识别系统。该系统以可视化的方式展示了危化品事故信息实体识别的关键步骤,同时该系统内集成了大量命名实体识别算法,对本文研究成果进行对比验证与分析。此外,在实体识别的基础上,构建了危化品事故知识图谱并设计neo4j知识模型对图谱进行存取与查询。
融合多级别特征的医学命名实体识别研究
这是一篇关于医学命名实体识别,多级别特征融合,GlobalPointer,嵌套实体,BERT的论文, 主要内容为随着互联网技术的快速发展,计算机技术在医疗领域的应用越来越受到学术界的重视。作为人口大国,我国拥有丰富的医疗资源,同时也产生了大量的医学文本数据。如何将这些医学文本数据与先进的计算机技术相结合,以提高医疗领域信息化水平和提升医学知识查询效率成为研究的重点。因此将自然语言处理中的命名实体识别任务应用到医学领域,显得顺理成章。通过利用命名实体识别技术提取医疗文本实体,可以建立医疗相关知识图谱,从而可以更快速的梳理复杂医学知识的脉络。为了进一步提高医学实体识别的准确率,本文开展了命名实体识别方法的研究,并从提升医学领域实体识别的精确率、缩短模型的训练时间、提升医学嵌套实体识别的精确率这三个方面进行了研究,具体研究内容为:(1)针对医学领域命名实体识别的准确率较低的问题,本文提出一种新的词嵌入表示方法。首先,通过简单循环神经网络训练医学文本得到字符级向量表示。然后使用GloVe模型获取医学文本的词级向量表示;最后,使用预训练模型BERT动态生成医学文本的向量表示,并将三种向量表示拼接起来。实验结果表明,相比传统的Word2vec词向量表示,本文提出的融合多级别特征的词嵌入模型在GENIA和NCBI-disease两个数据集上精确率、召回率和F1值均得到了提升。(2)针对命名实体识别模型训练时间过长的问题,提出一种新的门控循环单元结合GlobalPointer的医学命名实体识别模型。相比LSTM,门控循环网络在单个神经元上优化了内部门控结构。相比于条件随机场,GlobalPointer对上下文更加具有全局观,避免了条件随机场的复杂递归运算。这两处改进从整体上缩短了命名实体识别模型的训练时间。在GENIA数据集和NCBI-disease上,本文方法将模型的训练时间缩短了22%到30%。同时也研究了ROPE位置编码对GlobalPointer模型的影响,实验结果表明,加入ROPE位置编码后可以将GlobalPointer模型的性能平均提升9.41%。(3)针对医学命名实体识别中嵌套实体识别难度大,识别精度低的问题,提出了一种基于分层双向门控循环单元网络和文本卷积神经网络的模型。首先,使用文本卷积神经网络获取文本的局部特征,以弥补门控循环网络对于局部特征的提取能力不足。其次,使用门控循环网络进行分层叠加,每一层网络对应处理一层嵌套关系,以提高嵌套实体的识别精度。实验结果表明,在GENIA数据集、ACE2005数据集和BC2GM数据集上本文提出的模型均取得了较高的精度。
基于深度学习的生物医学命名实体识别方法的研究与实现
这是一篇关于生物医学,命名实体识别,嵌套实体,坐标卷积网络的论文, 主要内容为生物医学数据库中庞大的文献数量和高质量的内容,已然成为了生物医学领域研究的重要资源。从大量数据文献中快速、准确地提取所需信息,并发掘信息之间的潜在联系,对生物医学文本挖掘具有重要研究意义。生物医学命名实体识别是生物医学文本挖掘的一项基本和重要的任务。准确识别文献中的实体是后续信息抽取、知识问答、知识图谱构建等任务的关键步骤。和一般领域的命名实体识别任务相比,生物医学命名实体识别存在字母数字特殊字符混合命名、一词多义、嵌套实体等问题,使得生物医学领域命名实体识别任务面临巨大挑战。目前的生物医学命名实体识别研究主要集中在基因、疾病、化学品和物种等类型,随着动物源性疾病研究的逐渐重视,蛋白质、细菌、病毒、现象等信息的抽取已经成为生物医学研究领域的热点,然而生物医学常用数据集中还没有全部包含这些类型的命名实体识别数据集。目前的基于深度学习的命名实体识别方法主要采用序列模型进行实体识别,该模型在其他领域取得了较好的研究成果,然而由于生物医学领域嵌套实体的存在,限制了该模型在生物医学领域命名实体识别的效果。本文针对生物医学领域命名实体识别的特殊问题,提出了基于深度学习的命名实体识别方法,并设计实现生物医学命名实体识别系统,主要研究工作如下:(1)构建了动物源性疾病命名实体识别数据集。该数据集聚焦动物源性疾病研究关注的实体类型,使用Pub Tator工具自动获取基因、疾病、化学品、物种类别的基础上又人工标注了细菌、病毒、蛋白质和现象四种实体。该数据集从文献数据库Pub Med上,搜集了2万多篇文献资料,通过半自动化方式对其进行标注。得到的数据集共包含数据样本6067条,实体20999个,该数据集的建立为动物源性疾病命名实体识别的研究奠定了基础。(2)提出了基于坐标卷积网络和双仿射模型的生物医学命名实体识别方法。针对实体识别过程出现的嵌套实体和实体特征不明显问题,该模型利用Bio BERT获得文本的上下文内容表示,在双仿射模型的基础上融入坐标卷积模型并最终实现实体和实体类型识别。本文所提出的方法在GENIA数据集上F1值为79.01%,较其他模型提升了1.01%~2.78%,在本文构建的动物源性疾病命名实体识别数据集上F1值为63.19%,较基线模型提升了4.87%,实验结果均表明了该方法的有效性和可靠性。(3)设计并实现了生物医学命名实体识别系统。本文实现的生物医学命名实体识别系统使用Django框架进行设计和布局,使用My SQL数据库高效的存储和管理数据,方便用户检索并访问。该系统便于快速识别出输入文本中所包含的生物医学命名实体,并且将结果存储在数据库中,对生物医学领域专家后续研究具有重要意义。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设客栈 ,原文地址:https://bishedaima.com/lunwen/56305.html