基于神经网络的小样本关系抽取研究与应用
这是一篇关于关系抽取,小样本,预训练模型,元学习器的论文, 主要内容为随着大数据技术的快速发展,信息抽取通过神经网络模型将信息密度低的非结构化数据信息挖掘形成准确的结构化信息,对大数据技术研究具有重要意义。实体关系抽取属于信息抽取任务中必不可少的一环,近年来引起越来越多的自然语言处理研究人员的关注。关系抽取主要是对非结构化数据中的语义知识信息进行学习,再利用学习到的语义知识对海量的非结构化数据如文本信息进行实体关系抽取,将这些非结构化数据转变为结构化的关系数据,来支持知识库、问答系统、信息检索等实际应用。但是在许多实际应用场景中,并没有足够的数据进行关系抽取训练,且对于一些有足够样本的领域,也存在关系标注成本过高的问题,因此基于小样本学习的关系抽取研究具有重要意义。本文的研究内容如下:(1)对使用上下文相关的预训练模型BERT和静态预训练模型Glove作为词嵌入编码器的模型复杂度进行定量分析,从理论和实验上得出了上下文相关预训练模型的浮点计算量。在此基础上改进使用Glove作为词嵌入编码器的模型,提出可训练的数据增强网络层和上下文相关采样方式使得简单神经注意力元学习器SNAIL作为句子特征分类器在在使用Glove作为词特征编码器相比使用BERT时损失少量准确率,在Few Rel上达到75.71%,但是大幅度提升了模型前向传播速度;说明了将小样本关系抽取应用到实际系统中还需要解决当支撑集中没有查询样本类型时的问题,对现有的简单神经注意力元学习器进行改进使其具有双向结构,并且实验表明本文提出的结构能够提高辅助标注的准确率。(2)将本文模型应用到了精确的知识图谱构建系统中,分析说明了该系统的主要应用场景,说明了系统的功能模块和设计实现。并且使用该系统进行关系抽取智能辅助标注实验,实验表明本系统能够辅助人工构建精确结构化知识库准确率从92.2%提升到99.5%。在实际应用中,本文得到的知识图谱实际上属于比较好的标注样本,但是本文还尚未对其作出充分的应用,未来的研究可以探讨如何将知识图谱输入到模型中,来达到进一步提升模型能力的目的。
基于BERT语义嵌入的肺部疾病文本分析及其应用
这是一篇关于肺部疾病,多标签文本分类,关键信息抽取,问答系统,预训练模型的论文, 主要内容为在医疗领域中大量的专业医学知识以文本的形式存储,利用自然语言处理算法对其进行分析处理能够帮助医生减轻工作负担。肺癌领域的前沿趋势预测可以为医生未来研究方向的规划提供参考,抽取医疗文本中的关键信息能够协助医生阅读文献,自动问答系统可以在不增加医生负担的情况下帮助大众查询简单的医疗问题。本文从以上几个需求出发,将自然语言处理技术应用于肺部疾病文本分析中以缓解医疗系统的压力。本文的主要研究工作如下:针对肺癌领域的前沿趋势预测问题,通过对文献研究方向的分类,结合文献的发布时间信息,计算得到该研究方向下论文数目占比随时间变化的时序数据,并以此表示该研究方向的热度变化情况。其中重点介绍了多标签文本分类网络的构建,本文根据医疗数据的特点提出了改进的分类网络。实验结果表明,该网络结构相比同类模型具有更低的汉明损失和更高的F1得分,分别为0.0463和83.87%。最后本文还探讨了不同步长对时序分类网络效果的影响。实验结果表明当步长为6时预测效果最好,上升和下降的F1得分均高于89%。以研究内容一中文本分类任务为基础,选择与肺癌治疗相关的文献进行信息抽取。根据待抽取信息在文本中表现形式的不同,分为实体和三元组两类。通过改进标注机制的方法,构建实体、三元组联合抽取网络,有效避免误差累积的同时解决了三元组抽取任务中实体重叠的问题。实验结果表明,该方法在实体抽取任务中的F1得分为74.36%,在三元组抽取任务中F1得分为64.80%,对比分阶段抽取模式网络整体抽取效果更佳。最后为了直观的展示抽取结果,本文还编写了一套自动填表程序,将文献中关键信息的抽取结果以表格的形式呈现。新冠主题的问答系统可以帮助群众解答关于新型冠状病毒的科普性问题,加强大众对疫情的认知,有利于全民抗疫工作的推进。本文从实际需求出发,以现有新冠知识图谱为基础,通过模板生成的方式构建了一个新冠主题的问答数据集。分别训练命名实体识别网络和关系检测网络,实现对输入问句的解析。根据问句解析模块的输出结果在知识图谱进行检索,检索所得即为对输入问句的回复。最后,为了便于未来的推广使用,本文在问答功能实现的基础上,设计并搭建了一套问答系统的网页界面。
融合句法依赖结构信息的生物医学文本关系抽取
这是一篇关于关系抽取,图神经网络,预训练模型,句法依赖结构信息,生物医学的论文, 主要内容为从大量的生物医学电子文本中自动抽取其中实体之间的关系,对生物医学应用例如生物医学知识图谱的构建,生物医学知识发现等等具有十分重要的意义。随着深度学习、自然语言处理技术的发展,关系自动抽取技术也取得了长足的进步。然而生物医学文本中存在的专业性词汇,实体在句子中的较大跨度,以及句子中混杂的大量无用信息,仍为医学关系抽取带来重大挑战。本文从结合文本序列信息和句法依赖信息的角度出发,通过借助句法结构信息来帮助模型更好地理解生物医学文本,提升实体关系抽取效果。首先本文采用GCN模型建模句法图结构,并对GCN方法进行改进,将以往用于通用领域关系抽取的GCN模型迁移到生物医学数据上,提出改进的Multi-head GCN网络结构,再根据生物医学数据特点设计了基于根节点的句法信息提取方法。在三个生物医学数据集CPR,DDI,GAD上的实验说明了对GCN方法改进的有效性,且改进方法能够优于其他大多数深度神经网络结构。本文还对基于预训练模型的关系抽取方法进行改进,提出了融合句法依赖信息的预训练模型方法,主要对预处理层、特征结构层、模型结构层三大部分进行优化。首先在生物医学文本预处理中采取实体屏蔽,医学缩写替换,句法依赖结构变换操作,并提出了结合卡方检验关键词的句法信息提取方法。然后在特征提取中采用了实体上下文信息和句法信息的组合特征。在模型结构层,设计了融合句法信息的Transformer编码器结构,并将其嵌入到Pub Med BERT预训练模型中。最后。实验结果验证了各部分优化的合理性和有效性,证明了本文方法能够在多个医学关系抽取数据集上取得当前基于预训练模型方法的最优效果。
硬件描述语言智能代码补全技术研究
这是一篇关于硬件描述语言,智能代码补全,预训练模型,插件的论文, 主要内容为软件自动化技术能够有效降低软件开发者的工作量,提高软件开发效率。代码补全技术作为最常用的软件自动化技术之一,早已广泛地出现在几乎所有的集成开发环境中。智能代码补全技术随着近年来深度学习方法的广泛应用而不断更新迭代,众多智能代码补全技术的应用提高了软件开发的质量和效率。但在现有的智能代码补全技术的研究中,大多数代码补全工具专注于高级编程语言,少有用于硬件描述语言的智能代码补全研究和技术。为了提高数字集成电路设计开发人员的编码效率,减少重复性劳动,本文提出一种基于生成式预训练语言模型的智能代码补全技术,并基于此技术开发了一个用于VS Code代码编辑器平台的插件。首先,为了更好地完成硬件描述语言代码的补全任务,本文分析了 VerilogHDL在不同描述方式下代码的特点,总结出Verilog HDL代码不同于高级编程语言的重要特性,即并行性。然后,为充分利用Verilog HDL代码特点和预训练语言模型GPT-2的强大序列文本生成能力,设计了新的智能代码补全方法。评估结果表明,该方法的实际表现相比于现有基线在BLEU评价指标上提升了 30%以上。最后,基于该方法在VS Code平台实现了代码编辑器插件,旨在帮助编码人员提高开发效率。
基于情感词典与预训练模型的蒙古语多模态情感分析研究
这是一篇关于情感词典,BPE-Dropout,预训练模型,多模态,决策融合的论文, 主要内容为近年来,随着社交媒体的发展,如微博、论坛、抖音的出现,人们越来越倾向于在平台发表文字、表情符、短视频来表达个人情感,由此不同类型数据的信息交互的数量日益增多。面对海量的多模态信息,根据其情感进行分类,从而引导用户从大量数据中找到有价值的信息,已成为当前的研究热点之一。但是,相比中文、英文的情感分析研究,当前蒙古语情感分析研究存在着情感语料匮乏、文本情感特征单一化以及多模态特征提取不充分等问题,在一定程度上影响了蒙古语情感分析的效率。针对以上问题,本文进行以下三个方面的研究。(1)针对蒙古语情感语料匮乏而导致模型训练不足的问题,提出了一种基于情感词典和预训练模型的蒙古语情感分析方法。在该方法中,首先,分别创建蒙古语文本情感词典和表情符情感词典作为先验知识,以增强语料数据的情感信息。其次,采用BPE-Dropout分词技术对蒙古语文本数据进行切分,通过增加蒙古语切分子词的方式来缓解未登录词的问题。然后,将文本词向量和表情符向量拼接得到最终的语料向量化表示。最后,采用基于Transformer结构的模型进行训练,以提高模型特征提取能力。(2)针对蒙古语文本情感特征提取单一化的问题,提出一种基于残差网络(Res Net)和卷积门控循环网络(Convolutional Gated Recurrent Unit,Conv GRU)的图像情感分析模型。首先,预处理动画GIF图像将其转化为静态图像序列。然后,分别利用Res Net和Conv GRU网络提取动画GIF图像的时空特征进行情感类别预测。实验结果表明,该网络结构具有一定的特征提取优势,有利于学习动画GIF图像特征,并且能够在一定程度上提升模型情感分析效率。(3)针对单模态蒙古语情感分析模型鲁棒性不足的问题,提出了一种多模态融合的蒙古语情感分析方法。将提取文本和表情符特征的网络与提取GIF图像特征的网络做并行处理,然后采用决策级融合方法将两个网络模型的分类结果进行加权决策融合,得到最终多模态情感分析模型的预测结果。实验结果表明,充分利用不同类型数据的情感特征,能够有效提升情感分类效率。在以上研究中,本文分别通过多组对比实验验证模型的有效性,并采用准确率、精准率、召回率和F1值指标评估情感分类模型性能。实验结果表明,本文提出的蒙古语多模态情感分析方法能够显著提升情感分类模型的性能,这对包括蒙古语在内的低资源语言的情感分析研究及应用具有重要意义。
基于远程监督学习的关系抽取方法研究
这是一篇关于远程监督,关系提取,图卷积神经网络,双向门控循环单元,预训练模型的论文, 主要内容为关系三元组信息作为使用最普遍的知识表达方式,是构建知识图谱的重要来源,而关系抽取任务负责从非结构化文本中抽取出关系三元组信息。传统的关系抽取方法极度依赖大规模已标注训练数据,而标注训练数据需要耗费大量的人力物力,远程监督方法通过将非结构化文本与知识库对齐的方式自动生成大规模已标注训练数据,从而降低数据集标注的成本。远程监督方法虽然解决了标注训练数据的难题,但是由于其强假设思想,不可避免的带来了噪声数据,而且标注的训练数据存在长尾分布问题。为了降低噪声数据和长尾分布的影响,并提高远程监督关系抽取模型的准确率,本文提出了一种新型的远程监督关系提取方法:在句子表示方面,利用预训练模型获取词向量,将词向量与位置向量串联形成更丰富的语义向量;在特征提取方面,使用双向门控循环单元模型和图卷积神经网络模型学习训练数据的特征信息;在减缓噪声问题方面,使用词级别与句子级别注意力机制使模型重点关注有效的训练样本,少关注或不关注无效的样本;除此之外,为了丰富数据信息,缓解训练数据长尾分布问题,利用实体背景信息,实体类型信息,关系别名信息辅助关系抽取任务以及使用Focal Loss损失函数使关系提取模型重点关注数据量少的样本,使模型训练更充分。最后使用Riedel和GIDS开源数据集验证模型的有效性。实验结果表明,设计实现的远程监督关系抽取模型相比以往的远程监督关系抽取基线模型在准确率和召回率上得到明显提升,在Riedel数据集上AUC指标上高达0.41。为了更好的展示远程监督关系抽取过程,使用Flask网络框架搭建了一个远程监督关系抽取演示系统。
基于深度学习的中文文本校对算法研究与实现
这是一篇关于中文文本校对,深度学习,预训练模型,掩码语言模型,序列编辑的论文, 主要内容为随着信息时代的飞速发展,大量文字工作逐渐转移到计算机进行,使得电子文本的数量极速增长。互联网众多文本信息丰富了我们的生活,但是数据量的爆炸性增长也难免导致文本数据质量的大幅下降,使我们获取信息的效率大大地降低。传统人工校对的工作方式无法胜任如此大规模的数据,迫切需要计算机辅助的中文文本校对方法来帮助甚至替代人工校对。因此,在广泛地调研国内外关于文本校对的相关研究后,本文借助深度学习方法,从以下方面开展了工作:1.面向中文拼写错误校对问题,提出了一种融合汉字多特征嵌入的端到端中文拼写错误校对算法模型BFMBERT(Bi GRU-Fusion Mask BERT)。该模型首先利用结合混淆集的预训练任务使BERT学习中文拼写错误知识,然后使用双向GRU网络捕获文本中每个字符错误的概率,利用该概率计算汉字语义、拼音和字形特征的融合嵌入表示,最后将这种融合嵌入输入到BERT中的掩码语言模型预测正确字符。BFMBERT在SIGHAN基准数据集上进行了评测,取得了82.2的F1值,性能显著优于其他基线模型。2.面向中文语法错误校对问题,提出了一种基于序列编辑的中文语法错误校对模型CGECSE(Chinese Grammatical Error Correction Based on Sequence Edits)。首先定义了多种字符级别的编辑标签,然后提出了一种能够显式地表示从错误句子到校对后句子编辑过程的序列转换方法。在经过基于Transformer的编码器后,CGECSE通过编辑标签预测层来预测句子中每个字符的编辑标签,通过错误概率预测层预测字符的错误概率,再通过编辑处理结合错误置信度过滤来校对句子的语法错误。该模型利用序列编辑来替代序列到序列(Sequence to Sequence,Seq2Seq)模型处理中文语法错误校对,不仅弥补了自回归模型推理速度慢的缺点,还提升了模型的可解释性。此外还提出了始端Dropout和多粒度的数据增强方法缓解中文语法错误校对数据规模小和模型过拟合的问题。经过实验证明,CGECSE的性能达到了目标,超过了NLPCC2018基准测试集上的其它模型。3.通过多端分离的开发方式设计并实现了中文文本校对系统。基于Flask开发中文文本校对服务API,通过Spring Boot开发中文文本校对系统的业务逻辑,再利用Vue.js框架开发前端界面,最后设计并实现了一个耦合度较低的中文文本校对系统,提供了在线校对和离线校对等功能,验证了所提出的中文拼写错误校对模型和中文语法错误校对模型的可用性。
基于BERT语义嵌入的肺部疾病文本分析及其应用
这是一篇关于肺部疾病,多标签文本分类,关键信息抽取,问答系统,预训练模型的论文, 主要内容为在医疗领域中大量的专业医学知识以文本的形式存储,利用自然语言处理算法对其进行分析处理能够帮助医生减轻工作负担。肺癌领域的前沿趋势预测可以为医生未来研究方向的规划提供参考,抽取医疗文本中的关键信息能够协助医生阅读文献,自动问答系统可以在不增加医生负担的情况下帮助大众查询简单的医疗问题。本文从以上几个需求出发,将自然语言处理技术应用于肺部疾病文本分析中以缓解医疗系统的压力。本文的主要研究工作如下:针对肺癌领域的前沿趋势预测问题,通过对文献研究方向的分类,结合文献的发布时间信息,计算得到该研究方向下论文数目占比随时间变化的时序数据,并以此表示该研究方向的热度变化情况。其中重点介绍了多标签文本分类网络的构建,本文根据医疗数据的特点提出了改进的分类网络。实验结果表明,该网络结构相比同类模型具有更低的汉明损失和更高的F1得分,分别为0.0463和83.87%。最后本文还探讨了不同步长对时序分类网络效果的影响。实验结果表明当步长为6时预测效果最好,上升和下降的F1得分均高于89%。以研究内容一中文本分类任务为基础,选择与肺癌治疗相关的文献进行信息抽取。根据待抽取信息在文本中表现形式的不同,分为实体和三元组两类。通过改进标注机制的方法,构建实体、三元组联合抽取网络,有效避免误差累积的同时解决了三元组抽取任务中实体重叠的问题。实验结果表明,该方法在实体抽取任务中的F1得分为74.36%,在三元组抽取任务中F1得分为64.80%,对比分阶段抽取模式网络整体抽取效果更佳。最后为了直观的展示抽取结果,本文还编写了一套自动填表程序,将文献中关键信息的抽取结果以表格的形式呈现。新冠主题的问答系统可以帮助群众解答关于新型冠状病毒的科普性问题,加强大众对疫情的认知,有利于全民抗疫工作的推进。本文从实际需求出发,以现有新冠知识图谱为基础,通过模板生成的方式构建了一个新冠主题的问答数据集。分别训练命名实体识别网络和关系检测网络,实现对输入问句的解析。根据问句解析模块的输出结果在知识图谱进行检索,检索所得即为对输入问句的回复。最后,为了便于未来的推广使用,本文在问答功能实现的基础上,设计并搭建了一套问答系统的网页界面。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设驿站 ,原文地址:https://bishedaima.com/lunwen/46492.html