基于深度学习的化学物蛋白质关系抽取研究与设计
这是一篇关于化学物蛋白质关系抽取,最短依存路径,预训练语言模型,信息抽取平台的论文, 主要内容为随着生物医学文献数量的迅速增长,如何从浩如烟海的生物医学文献中快速有效地提取有价值的信息和知识,成为当前亟待解决的问题。化学物蛋白质关系抽取(Chemical Protein Relation Extraction,CPRE)是指从生物医学文献中自动抽取出化学物和蛋白质之间的相互作用关系,如激活、抑制、拮抗和催化作用等,它对生物医学知识图谱的构建、精准医学和新药研发等方面具有重要的意义。本文对生物医学领域化学物蛋白质关系抽取的研究主要包括以下内容:(1)提出了基于最短依存路径和集成学习的化学物蛋白质关系抽取。本文提出了一种基于最短依存路径和注意力机制的双向LSTM模型,并将它应用于化学物蛋白质关系抽取。在特征上综合考虑了实体间最短依存路径上的词性、位置和依存关系类型等信息。在BioCreative Ⅵ CHEMPROT任务上的实验表明,本文的方法取得了较好的性能,同时,集成学习方法还可以进一步提高了化学物蛋白质关系抽取性能。(2)比较了基于预训练语言模型的化学物蛋白质关系抽取。鉴于以BERT为代表的预训练模型在自然语言处理领域内取得的进步,本文将BERT、BioBERT和XLNet等当前常用的预训练模型应用到化学物蛋白质关系抽取任务中,并通过实验对这些预训练模型在化学物蛋白质关系抽取任务上的性能进行了比较和分析,研究表明,基于生物医学语料的BioBERT模型在化学物蛋白质关系抽取中取得了最佳性能。(3)设计和实现了一个面向生物医学领域的信息抽取平台BioPIE(Platform for BiomedicalInformation Extraction)。该平台具有通用性和灵活性的特点,可以支持实例级、句子级、摘要级和全文级等不同标注层次的语料库,可以实现多种命名实体识别和关系抽取任务,并且可以通过类的继承和重写来实现复杂的信息抽取任务。
基于Bi-LSTM与注意力机制的实体关系抽取
这是一篇关于关系抽取,双向长短期记忆网络,注意力机制,最短依存路径,特征融合的论文, 主要内容为随着全民互联网时代的到来,如何从大规模、非结构化信息中快速准确获取所需知识成为了被广泛关注的课题。在对海量信息进行挖掘分析的过程中,信息抽取是一项基本任务。信息抽取是指从一段文本中抽取特定信息并形成结构化数据的过程。而实体关系抽取是信息抽取的重要组成部分,主要用于识别出文本中实体之间的语义关系,也是智能问答和知识图谱等诸多应用系统的基础。传统的关系抽取方法多基于规则或基于统计,成本较高且不适用于大规模数据处理,而基于深度学习的抽取方法可自动学习句子特征,无需复杂的特征工程,抽取效果也更好。但目前大部分基于深度学习的方法忽略了对文本语义的挖掘。因此,基于已有研究基础,考虑到Bi-LSTM可捕捉双向语义依赖的优势以及注意力机制可为不同作用的语义特征分配不同权重的特点,本文结合这两者进行实体关系抽取。并在特征抽取层引入了词性、实体识别类型、相对位置以及实体对上下文这四种特征,为获取实体间的主要联系,还引入了最短依存路径。为使得模型具备判断语义关系方向的能力,引入了实体关系方向表示层。最后将不同的实体特征计算结果通过softmax归一化映射为所有语义关系的概率,输出实体关系所属类别,从而实现一个完整的关系抽取模型。实验采用SemEval2010 Task8数据集,并为输入特征、模型结构、对抗过拟合策略以及模型本身设置了对比实验,结果表明本文所提出方法的F1值与仅结合注意力机制的Bi-LSTM模型和引入实体关系方向表示层后的该模型相比均有一定提升。
基于自然语言多特征融合的实体关系抽取方法研究
这是一篇关于中文文本,长句预处理,最短依存路径,多语义特征提取,关系抽取的论文, 主要内容为互联网发展迅速,随着5G时代的到来,网络媒体上的信息量的增长速度又提上了一个新高度。对于如何将体量庞大、种类丰富的中文文本信息数据进行结构化的问题,已经成为自然语言处理领域的一项重要研究内容。实体关系抽取任务作为自然语言处理领域的一项基础任务,在当下也是有着重要研究意义的。对于中文文本的实体关系抽取研究中,本文在文本语料预处理的技术上以及在算法模型提取特征方式上,进行了进一步优化。本文的主要研究如工作如下:(1)本文提出基于指代消解的文本预处理算法,来解决由于中文文本过长、文本指代不明、实体之间距离过远等导致的实体关系抽取问题。通过提出基于指代消解的长文本剪枝算法,来对长文本语料进行指代补全和短句剪枝处理,增强了实体信息,并剔除了无关文本对关系分类的影响。通过提出基于长文本剪枝算法的最短依存路径算法,在剪枝文本上进行依存句法分析,最后保留了文本中实体相关的词组节点的最短路径,进一步降低其他无关信息对关系判别影响。本文在中文数据集上进行了对比实验,对本文提出算法的可行性和有效性进行了验证。(2)本文提出了基于文本长句剪枝的实体关系抽取模型,用于处理中文长文本的语法复杂、指代繁多的问题。文本的预处理,是使用基于指代消解的文本预处理算法进行预处理,并提取了多种文本语义特征作为辅助信息,嵌入层采用BERT模型对文本词组进行词向量嵌入,编码层通过双向长短期记忆网络模型提取文本向量的语义特征,之后通过注意力机制进行向量加权,最终在多分类器进行关系类别判断。本文在中文数据集上进行了对比实验,对本文提出的剪枝算法和模型的可行性和有效性进行了验证。(3)本文根据提出的算法和模型,设计和实现了知识图谱构建系统,实现了实体关系抽取、知识图谱构建、知识图谱展示等等功能的一体化操作。整个系统经过功能性测试和非功能性测试,能有效运行和使用。
基于深度学习的化学物蛋白质关系抽取研究与设计
这是一篇关于化学物蛋白质关系抽取,最短依存路径,预训练语言模型,信息抽取平台的论文, 主要内容为随着生物医学文献数量的迅速增长,如何从浩如烟海的生物医学文献中快速有效地提取有价值的信息和知识,成为当前亟待解决的问题。化学物蛋白质关系抽取(Chemical Protein Relation Extraction,CPRE)是指从生物医学文献中自动抽取出化学物和蛋白质之间的相互作用关系,如激活、抑制、拮抗和催化作用等,它对生物医学知识图谱的构建、精准医学和新药研发等方面具有重要的意义。本文对生物医学领域化学物蛋白质关系抽取的研究主要包括以下内容:(1)提出了基于最短依存路径和集成学习的化学物蛋白质关系抽取。本文提出了一种基于最短依存路径和注意力机制的双向LSTM模型,并将它应用于化学物蛋白质关系抽取。在特征上综合考虑了实体间最短依存路径上的词性、位置和依存关系类型等信息。在BioCreative Ⅵ CHEMPROT任务上的实验表明,本文的方法取得了较好的性能,同时,集成学习方法还可以进一步提高了化学物蛋白质关系抽取性能。(2)比较了基于预训练语言模型的化学物蛋白质关系抽取。鉴于以BERT为代表的预训练模型在自然语言处理领域内取得的进步,本文将BERT、BioBERT和XLNet等当前常用的预训练模型应用到化学物蛋白质关系抽取任务中,并通过实验对这些预训练模型在化学物蛋白质关系抽取任务上的性能进行了比较和分析,研究表明,基于生物医学语料的BioBERT模型在化学物蛋白质关系抽取中取得了最佳性能。(3)设计和实现了一个面向生物医学领域的信息抽取平台BioPIE(Platform for BiomedicalInformation Extraction)。该平台具有通用性和灵活性的特点,可以支持实例级、句子级、摘要级和全文级等不同标注层次的语料库,可以实现多种命名实体识别和关系抽取任务,并且可以通过类的继承和重写来实现复杂的信息抽取任务。
融合多元信息的实体关系抽取研究
这是一篇关于实体关系抽取,最短依存路径,句法结构信息,知网,注意力机制的论文, 主要内容为信息抽取是自然语言处理(NLP)领域研究热点之一,而实体关系抽取作为其基础任务尤为重要。实体关系抽取的目的是从大量的非结构化数据中剥离出具有结构化的实体然后对实体之间的语义关系进行判断,通常使用三元组的方式进行表示,此技术为之后搭建知识图谱、信息检索、自动问答等技术提供基础。目前实体关系抽取的研究方向大多是以单一的词向量表示或结合不同特征进行处理,在用多个方法处理后的结果,在不同关系类型的分类中,他们对关系的判断有着各自的优势和劣势。所以本文据此提出了采用多个数据处理方式对实验数据进行处理,独立输入到下一层,统计其优劣势,再更合理的分配权重是本文的核心创新点。关系抽取的研究也是逐步发展的,分别经历了知识工程、传统机器学习、深度学习这三个阶段。目前而言深度学习方法已经成为当今的主流,其原因是相对于那些需要专业领域人才设计需要特征的传统实体关系抽取,深度学习方法通过自动学习,模型统计规律,有效的避免了像传统方法需要消耗大量人力和时间,同时也减少了错误的传播,所以本文在深度学习的基础上来进行研究。而在深度学习模型中也发现通过把卷积神经网络和双向LSTM模型进行合理的组合也可以很好地提高实验的整体性能。为了突出实体在句子中的重要性并更好地挖掘词语间的关系,在神经网络模型中添加了注意力机制。针对以上问题,本实验提出了相应的解决办法,主要的创新点由以下三点构成;(1)本实验提出了一种多模型融合策略,即将句法结构分析、最短依存路径与知网处理结果分别独立地输入到神经网络层中,结合各方法在相应关系分类中的敏感度,优化设置不同模型面向不同关系识别的权重分布。(2)在原有的Bi-LSTM模型基础上,增加卷积神经网路(CNN),从而可以更好地捕获句子局部关键信息,提高实验的性能。为了保持数据的完整性,每次输入都会与原始数据相结合,目的是保持数据信息的完整性,以更好地状态输入到Bi-LSTM层中去,这样两个模型的优势都很好的得到表现。(3)为了更好的学习词语之间的依赖关系,捕捉句子的内部语义信息,在原有的模型中添加了注意力机制,在注意力层中为了改善关系抽取在长复杂句中的分类效果,把输入到注意力层的数据中所有的隐藏状态提取出来,为了证明这个方法的有效性同时也做了对比实验,最后通过结果证明提取所有的隐藏状态比提取单一的隐藏状态效果更佳。实验结果对比,在融合多元信息神经网络模型后,F值为79.38%,照比初始实验有了显著提升。之后通过添加注意力机制模型,F值提高了2.62%,通过实验数据证明实验方法可行。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://bishedaima.com/lunwen/56303.html