基于嵌套命名实体识别的肿瘤知识图谱构建
这是一篇关于肿瘤知识图谱构建,嵌套命名实体识别,关系抽取的论文, 主要内容为近年来,中国肿瘤的发病率和死亡率持续上升,据2019年国家癌症中心发布的中国癌症数据结果显示,近10年恶性肿瘤发病率每年保持约3.9%的增幅,死亡率每年保持2.5%的增幅。如何利用已有的数据资料进行归纳总结,挖掘出潜在的、有效的数据关系,以加强肿瘤防治工作,成为研究者们迫切需要解决的问题。随着全球信息化进程的发展,互联网上散落了越来越多的数据,其中蕴含丰富的医学及肿瘤学知识,挖掘其中有价值的信息,构建肿瘤知识图谱,可以推动语义技术在医疗信息领域中的研究与应用,协助医生更方便的获取知识指导,带来更高效精确的医疗服务。针对肿瘤知识图谱的构建需求,本文的主要工作包括以下两部分:(1)针对医疗数据中常见的嵌套实体问题,提出了一个基于BERT的嵌套命名实体识别模型BLBC(BERT-Layered-Bi LSTM-CRF)。该模型使用动态堆叠平面NER层来识别嵌套实体,本文将当前层检测到实体输出进行融合,为实体建立新的表示形式,然后将它们输入到下一个平面NER层中,这样可以充分利用内部实体中的编码信息来提取外部实体。另外,针对传统预训练模型特征提取能力不足的问题,为了提升其精确率、召回率,本文引入具有更强文本特征表示能力的预训练模型BERT作为特征表示层。本文在中文的医学数据集CCKS2017与英文的医学数据集GENIA上进行实验,证实BLBC模型的效果更佳。(2)利用百度百科和知网论文中的肿瘤相关资源,设计并构建起了一个具有一定规模的肿瘤知识图谱。本文对百度百科的肿瘤相关页面和知网的肿瘤相关论文进行爬取,将半结构化数据直接整理生成三元组。对非结构化数据,首先针对数据中嵌套实体的情况使用BLBC模型进行命名实体识别;之后使用半结构化数据形成的三元组与CN-DBpedia知识库共同进行远程监督,利用PCNN模型进行关系抽取;最后将非结构化数据与半结构化数据形成的三元组合并,形成一个拥有5247个三元组、3189个实体及204个关系的肿瘤知识图谱,利用Neo4j图数据库完成对知识图谱的存储。
基于嵌套命名实体识别的肿瘤知识图谱构建
这是一篇关于肿瘤知识图谱构建,嵌套命名实体识别,关系抽取的论文, 主要内容为近年来,中国肿瘤的发病率和死亡率持续上升,据2019年国家癌症中心发布的中国癌症数据结果显示,近10年恶性肿瘤发病率每年保持约3.9%的增幅,死亡率每年保持2.5%的增幅。如何利用已有的数据资料进行归纳总结,挖掘出潜在的、有效的数据关系,以加强肿瘤防治工作,成为研究者们迫切需要解决的问题。随着全球信息化进程的发展,互联网上散落了越来越多的数据,其中蕴含丰富的医学及肿瘤学知识,挖掘其中有价值的信息,构建肿瘤知识图谱,可以推动语义技术在医疗信息领域中的研究与应用,协助医生更方便的获取知识指导,带来更高效精确的医疗服务。针对肿瘤知识图谱的构建需求,本文的主要工作包括以下两部分:(1)针对医疗数据中常见的嵌套实体问题,提出了一个基于BERT的嵌套命名实体识别模型BLBC(BERT-Layered-Bi LSTM-CRF)。该模型使用动态堆叠平面NER层来识别嵌套实体,本文将当前层检测到实体输出进行融合,为实体建立新的表示形式,然后将它们输入到下一个平面NER层中,这样可以充分利用内部实体中的编码信息来提取外部实体。另外,针对传统预训练模型特征提取能力不足的问题,为了提升其精确率、召回率,本文引入具有更强文本特征表示能力的预训练模型BERT作为特征表示层。本文在中文的医学数据集CCKS2017与英文的医学数据集GENIA上进行实验,证实BLBC模型的效果更佳。(2)利用百度百科和知网论文中的肿瘤相关资源,设计并构建起了一个具有一定规模的肿瘤知识图谱。本文对百度百科的肿瘤相关页面和知网的肿瘤相关论文进行爬取,将半结构化数据直接整理生成三元组。对非结构化数据,首先针对数据中嵌套实体的情况使用BLBC模型进行命名实体识别;之后使用半结构化数据形成的三元组与CN-DBpedia知识库共同进行远程监督,利用PCNN模型进行关系抽取;最后将非结构化数据与半结构化数据形成的三元组合并,形成一个拥有5247个三元组、3189个实体及204个关系的肿瘤知识图谱,利用Neo4j图数据库完成对知识图谱的存储。
低资源场景下面向雷达及作战体系领域的嵌套命名实体识别研究
这是一篇关于雷达及作战体系,低资源,嵌套命名实体识别,数据增广,伪标签的论文, 主要内容为在雷达及作战体系领域,从非结构化情报文本中抽取雷达及武器装备实体是构建电磁辐射源知识图谱的基础工作之一。由于领域的特殊性,情报文本中存在大量的嵌套结构。嵌套命名实体识别(Nested Named Entity Recognition,NNER)指自动从无结构文本中提取出预定义语义类型的嵌套命名实体,获取丰富的实体及实体内部之间的语义关系信息。当前的大多数NNER模型都假设有充足的训练样本进行训练。但是在雷达及作战体系领域中,由于领域特殊性、数据敏感性和高标注成本,真实场景无法访问到足够多的无标签领域数据,领域公开标注数据集鲜见,知识库或者领域词典等辅助数据匮乏,因此面向雷达及作战体系领域的NNER面临着低资源挑战。本文针对雷达及作战体系领域的特殊性,研究低资源场景下NNER问题,主要贡献如下:(1)针对无标签领域数据缺乏的问题,提出了两种雷达及作战体系领域的数据增广算法:单程数据自动选择算法SADS(Single-pass Automated Data Selection algorithm)和基于BERT的标签感知上下文增强算法BBLCA(BERT Based Label-aware Contextual Augmentation algorithm)。SADS 算法通过对领域数据集增量聚类来学习领域数据分布特征,接着在相似领域数据上均衡采样,最终获得样本类别均衡的全新领域数据。BBLCA算法基于chinese-BERT-wwm预训练模型,在BERT的编码层输入中将本文的文本生成任务中不重要的“段嵌入层”替换为“标签层”。接着以词语为单位使用掩码语言模型随机遮掩、插入和删除掩码,并预测每个掩码位置的词语,最终获得标签感知的新领域数据。上述两种算法分别被应用在课题组的任务数据集RadarCorpus和相似领域数据集RadarPatentCorpus上,获得了大量语义语法正确的无标签领域数据。实验结果表明,SADS和BBLCA算法获得的无标签领域数据丰富了训练样本多样性,提升了模型性能。(2)针对标签数据不足的问题,本文基于自训练方法提出了 NNER模型-基于差异化多模型协同训练的嵌套命名实体识别模型NNER-DMCT(Nested Named Entity Recognition based on Differentiated Multi-model Cooperative Training),为无标签领域数据自动生成词级别标签。NNER-DMCT模型选用了 BERT-CRF、BERT-SPAN和BERT-TPLinker-NNER三个模型框架,利用本文提出的BL-Tri-training算法进行多模型差异化协同训练来获得多个基学习器,通过基学习器分别对无标签文本进行预测,最后基于多数投票机制对预测结果进行集成,避免了因单一视图导致的歧义性错误。该模型在获得的无标签领域数据上进行验证,实验结果有力证明了 NNER-DMCT模型的有效性。(3)基于NNER-DMCT模型自动标注获得的伪标签数据集,构建了低资源场景下的NNER模型-基于伪标签学习的边界感知跨度表示神经网络模型BASRN-PL(Boundary-Aware Span Representation Neural model based on Pseudo-label Learning),学习伪标签数据的知识并考虑了伪标签数据中的噪声影响。该模型使用动态可学习的权重,使得模型能够充分学习到原始任务数据和正确的增广任务数据信息。此外,模型使用了一个双向LSTM模型和自注意力机制对数据表示进行了增强。通过与主流的NNER模型进行对比,实验结果表明BASRN-PL模型能够较好地学习伪标签数据集的信息,并获得较优的模型效率。
低资源场景下面向雷达及作战体系领域的嵌套命名实体识别研究
这是一篇关于雷达及作战体系,低资源,嵌套命名实体识别,数据增广,伪标签的论文, 主要内容为在雷达及作战体系领域,从非结构化情报文本中抽取雷达及武器装备实体是构建电磁辐射源知识图谱的基础工作之一。由于领域的特殊性,情报文本中存在大量的嵌套结构。嵌套命名实体识别(Nested Named Entity Recognition,NNER)指自动从无结构文本中提取出预定义语义类型的嵌套命名实体,获取丰富的实体及实体内部之间的语义关系信息。当前的大多数NNER模型都假设有充足的训练样本进行训练。但是在雷达及作战体系领域中,由于领域特殊性、数据敏感性和高标注成本,真实场景无法访问到足够多的无标签领域数据,领域公开标注数据集鲜见,知识库或者领域词典等辅助数据匮乏,因此面向雷达及作战体系领域的NNER面临着低资源挑战。本文针对雷达及作战体系领域的特殊性,研究低资源场景下NNER问题,主要贡献如下:(1)针对无标签领域数据缺乏的问题,提出了两种雷达及作战体系领域的数据增广算法:单程数据自动选择算法SADS(Single-pass Automated Data Selection algorithm)和基于BERT的标签感知上下文增强算法BBLCA(BERT Based Label-aware Contextual Augmentation algorithm)。SADS 算法通过对领域数据集增量聚类来学习领域数据分布特征,接着在相似领域数据上均衡采样,最终获得样本类别均衡的全新领域数据。BBLCA算法基于chinese-BERT-wwm预训练模型,在BERT的编码层输入中将本文的文本生成任务中不重要的“段嵌入层”替换为“标签层”。接着以词语为单位使用掩码语言模型随机遮掩、插入和删除掩码,并预测每个掩码位置的词语,最终获得标签感知的新领域数据。上述两种算法分别被应用在课题组的任务数据集RadarCorpus和相似领域数据集RadarPatentCorpus上,获得了大量语义语法正确的无标签领域数据。实验结果表明,SADS和BBLCA算法获得的无标签领域数据丰富了训练样本多样性,提升了模型性能。(2)针对标签数据不足的问题,本文基于自训练方法提出了 NNER模型-基于差异化多模型协同训练的嵌套命名实体识别模型NNER-DMCT(Nested Named Entity Recognition based on Differentiated Multi-model Cooperative Training),为无标签领域数据自动生成词级别标签。NNER-DMCT模型选用了 BERT-CRF、BERT-SPAN和BERT-TPLinker-NNER三个模型框架,利用本文提出的BL-Tri-training算法进行多模型差异化协同训练来获得多个基学习器,通过基学习器分别对无标签文本进行预测,最后基于多数投票机制对预测结果进行集成,避免了因单一视图导致的歧义性错误。该模型在获得的无标签领域数据上进行验证,实验结果有力证明了 NNER-DMCT模型的有效性。(3)基于NNER-DMCT模型自动标注获得的伪标签数据集,构建了低资源场景下的NNER模型-基于伪标签学习的边界感知跨度表示神经网络模型BASRN-PL(Boundary-Aware Span Representation Neural model based on Pseudo-label Learning),学习伪标签数据的知识并考虑了伪标签数据中的噪声影响。该模型使用动态可学习的权重,使得模型能够充分学习到原始任务数据和正确的增广任务数据信息。此外,模型使用了一个双向LSTM模型和自注意力机制对数据表示进行了增强。通过与主流的NNER模型进行对比,实验结果表明BASRN-PL模型能够较好地学习伪标签数据集的信息,并获得较优的模型效率。
金融嵌套命名实体识别系统的设计与实现
这是一篇关于嵌套命名实体识别,语义增强,序列标注,分层识别模型的论文, 主要内容为数据是信息时代推动社会经济发展的动力源泉。金融行业依靠数据驱动,同时金融作为社会经济发展的重要支柱,它的安全性也一直受到人们的高度重视和关注。实践证明,只有宏观政策和新兴技术双管齐下,金融数据的安全才能得到切实保障。知识图谱作为新兴的人工智能技术,可以将数据结构化并提取出特定内容,将其应用到金融领域可快速提取金融数据的关键信息,便于后续对数据形成针对性保护。而命名实体识别作为构建知识图谱中最基础的步骤,对金融知识图谱的高质量构建至关重要。金融领域不同于通用领域,其中的实体普遍较长,嵌套形式较为复杂,特别是金融机构名和金融产品中存在着较多嵌套命名实体,若忽略掉这些实体将会丢失大量的语义信息。嵌套命名实体识别旨在完整地识别出文本中的所有实体,有利于后续得到更丰富的实体信息和更深层次的语义信息,提升实体识别的质量和数量。而现在的嵌套命名实体识别主要围绕通用领域进行,因此,本文针对金融领域实体长、嵌套实体复杂的特点,做出了以下研究:1.构建了包含嵌套命名实体的金融数据集,便于后续模型和系统的性能验证。首先收集了 12000条金融领域的文本,确定了 5类实体和若干类嵌套实体,再经过人工筛选、清洗、检查和标注完成了金融嵌套命名实体数据集的构建。该数据集包含8000条文本,其中标注的实体较为完整,且数量多、专业性强、嵌套率高,具有较强的实用性和领域特性,可用于简单命名实体识别、嵌套命名实体识别,额外的标注还可将用于实体关系抽取。2.提出一种基于语义增强的嵌套命名实体分层识别模型。本文在模型中设计了语义增强算法,缓解了数据稀疏的问题,改善了识别的效果。同时采用分层识别不同长度实体的结构,避免了层叠式嵌套命名实体识别模型的错误传播问题,提高了识别的准确率。实验中的结果证明了模型优良的性能和较强的泛化能力。3.实现了一个专为金融领域而设计的嵌套命名实体识别系统。本文设计了一个端到端的嵌套命名实体识别系统,该系统不仅支持验证嵌套命名实体识别算法的性能,还允许用户自主选择需识别实体的数据集,查看在该数据集上的识别性能,并展示嵌套命名实体识别的最终结果,实现实体结果的可视化。本文的系统具有优良的性能、较强的泛化性和广阔的应用前景。
平面化的嵌套命名实体识别方法研究
这是一篇关于嵌套命名实体识别,平面化表示,自交叉编码,二维循环神经网络的论文, 主要内容为在国家加快推进数字化、智能化转型的背景下,信息抽取技术也逐渐在司法、医疗、金融等领域得到广泛应用。嵌套实体识别是信息抽取中的一个重要任务,其应用领域涉及关系抽取、知识图谱构建、智能问答等多个方面。传统的命名实体识别被视为序列标注任务,通过对每个字符分配对应的标签来识别实体。但是这种方法无法直接处理嵌套实体的情况。当前,相关学者对嵌套实体识别的研究主要是基于跨度模型的方法,该方法关注通过生成不同的潜在实体跨度进行分类识别。但是基于跨度的方法容易丢失语义依赖和粗细粒度信息。针对此问题,本文提出了平面化的跨度表示方法,将一维的序列信息升为二维的矩阵信息。平面化解析了句子结构从而得到句子表示,进一步提高实体分类的性能。本文提出了一种平面化的映射方法,并在此基础上进行了改进,论文的研究工作如下:(1)提出自交叉编码的平面化嵌套实体识别方法。针对平面化的过程会产生语义依赖丢失问题,提出了一个二维循环神经网络学习跨度之间的语义依赖。首先,对文本进行向量化表示;然后将字符向量通过自交叉编码器,生成二维矩阵形式的文本特征;接着对生成的文本特征矩阵通过二维循环神经网络,学习跨度之间的语义依赖;最后对每个跨度进行分类识别。在五个公共数据集上进行了嵌套命名实体识别的评估。实验结果表明,该方法能够有效地解决嵌套的命名实体并学习它们之间的语义依赖关系。(2)提出多粒度的平面化嵌套实体识别方法。针对平面化的过程会丢失粗细粒度信息的问题,提出了多粒度语义提取方法。通过多粒度语义提取器来获取序列中的粒度信息。首先,对文本通过预训练模型提取向量表示;接着将文本向量送入自交叉编码器中生成文本特征矩阵;同时将文本向量送入到多粒度语义提取器中,多粒度语义提取器通过卷积神经网络提取文本中的多粒度信息;最后通过多个膨胀卷积提取文本矩阵中的距离特征,并将文本特征矩阵分类输出。在三个公开数据集上进行了实验,结果表明,多粒度语义提取器补充了粒度信息并且对于嵌套实体的识别有较好的支持。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计货栈 ,原文地址:https://bishedaima.com/lunwen/55049.html