跨领域中文社交媒体命名实体识别及应用
这是一篇关于社交媒体,词汇增强,跨领域训练,命名实体识别的论文, 主要内容为中文命名实体识别任务是自然语言处理的一项重要的基础任务,常用在信息抽取、信息检索、机器翻译、问答系统、知识图谱构建等复杂任务中,作为结构化信息提取的必不可少的重要组成部分。在社交媒体领域,每天都会产生海量的数据,从中提取出各类实体对舆情监测、市场营销等方面具有重大意义。在中文社交媒体领域,存在着用词不规范、谐音、歧义以及结构复杂多变的特点,并且语料规模有限,标注数据匮乏。本文所用的数据集均来自于开源的命名实体识别语料。包括Boson数据集、CLUE数据集、Literature数据集、MSRA数据集、People’s Daily数据集、Resume数据集、Weibo数据集。其中Weibo数据集为的社交媒体数据集,包含人名、地名和机构名等标签,一共1809个样本。本文将所有数据集做预处理,统一转换为BIO标签格式,并划分训练集、验证集和测试集。本文为中文命名实体识别任务构造了以BERT-LSTM-CRF为基础的LACD-NER模型。模型分为4层:数据层、输入层、编码层和解码层。数据层将原始数据做预处理后进入输入层;输入层利用词汇增强技术来提取更丰富的语义特征,先采用BERT相关的预训练模型将字符转化为词嵌入Char Embedding,同时对每个字符提取词嵌入Word Embedding,为了解决中文歧义、谐音等问题,输入层还加入了汉字的拼音、字形等特征Fea Embedding;编码层采用双向LSTM编码,能够同时提取正反两个方向的语义特征,由参数生成器生成参数;解码层采用CRF解码,保证输出结果的合理性。为了解决语料缺乏的问题,本文基于Cross-Domain跨领域学习框架,将命名实体识别任务与语言模型任务同时训练,借助共享输入层实现跨领域迁移。在跨领域迁移过程中,当目标领域没有标注语料时只能进行无监督训练。为了解决这个缺点,本文集成了预标注模块,将LTP、Han LP、LAC、Fool NLTK四个开源工具进行了集成。本文利用Bagging方法将不同工具的预测结果进行汇整,通过投票的方式得到预标注语料,并在损失函数计算时采用负采样损失降低漏标注标签的影响。本文构建的基于词汇增强的跨领域命名实体识别模型LACD-NER通过有监督的多任务学习,在Weibo语料上的F1值比LSTM-CRF基础模型提升约4%。另外,本文设计的预标注模块能够在社交媒体等较少标注的领域通过加入伪标签实行监督训练。
基于深度学习的命名实体识别方法研究
这是一篇关于命名实体识别,词汇增强,反事实模型,多特征嵌入,多网络融合的论文, 主要内容为命名实体识别是信息挖掘的主要手段,在知识图谱的构建以及推荐系统的应用中发挥着重要作用。随着深度学习技术的不断创新发展,在完成命名实体识别任务上效果显著,但依然面临着诸多挑战,比如识别实体不准确的问题,主要有两方面原因,一方面在于医疗领域已标注数据匮乏导致模型识别性能不佳,另一方面在于实体边界难以确定导致语义信息提取不完整。针对上述问题,本文基于深度学习的方法,对电子病历的结构特点以及命名实体识别的关键技术做了深入研究,分别提出了引入反事实机制增强词汇的方法以及结合多特征嵌入和多网络融合的方法,用于解决医疗领域命名实体识别任务中现存的问题。本论文的主要工作和创新点如下:(1)针对医疗领域已标注数据匮乏的问题,本文提出了引入反事实机制增强词汇的模型。该模型对传统词汇增强的方法进行改进,借助反事实的思想,对实体所在的上下文进行干预,将实体替换为同类型的其他实体以生成新的数据;并引入掩码语言模型对上下文中的非实体进行填充,实行两步走策略完成数据增强工作。在该模型中不仅融合了已标注语料中的词汇信息,还嵌入了字符特征和位置特征,能够进一步确定实体的边界位置,丰富字符的特征表达。实验结果显示该模型在两个数据集上均展现出优越的性能,有效解决了医疗领域已标注数据匮乏的情况,极大地增强了语料,同时,本文采用融合词汇信息的方法丰富特征,提高了识别实体的准确度。(2)针对实体提取不准确、语义信息提取不完整的问题,本文提出了结合多特征嵌入和多网络融合的模型。该模型在字符嵌入和单词嵌入的基础上,融合部首特征和外部知识特征,并构建多语义词典,进一步确定实体边界的位置。对图卷积网络模型进行改进,提出了自适应图卷积网络模型,通过不断聚合邻近节点的特征进而捕获全局的语义信息,并与长短时记忆网络提取的特征融合,实现双通路的特征提取,深层次的捕获文本特征,极大地丰富了语义信息的表达。本文模型分别在两个数据集上进行实验分析,结果显示,该模型与目前先进的模型相比性能均有所提升,有效解决了实体识别不准确的问题,充分证明了该模型的有效性。
基于深度学习的端到端方面级情感分析算法研究及应用
这是一篇关于方面级情感分析,注意力机制,长短期记忆网络,词汇增强的论文, 主要内容为随着互联网技术的快速发展,各种社交平台和电商平台也应运而生,极大地拓宽了人们的言论空间,产生了带有情感倾向的海量文本数据。对这些文本数据进行情感分析,对社会和商业等领域有重要意义。方面级情感分析旨在识别一句话中不同目标实体的不同情感倾向,具有重要研究价值。论文首先利用集成标注策略,将实体标签与情感极性标签融合,将方面级情感分析任务定义为序列标注任务,实现端到端的方面级情感分析;针对端到端模型中缺乏文本间交互信息学习的问题,在Bi LSTM-CRF框架基础上引入多头注意力机制,利用多头注意力构造不同子空间加强模型对句子内部结构的学习,增强模型聚焦不同语义信息的能力。其次,为了加强目标实体识别与情感分析任务之间的依赖关系,提出基于注意力机制的层次双向长短期记忆网络模型(Att-HLSTM),利用残差连接方式建立层次神经网络,使底层的目标实体边界预测结果作用于上层神经网络学习,添加门机制进行情感一致性优化。此外,目前中文方面级情感分析任务研究不足,中文复杂的语言特点制约了中文情感分析任务的发展。论文在实验中添加中文数据集,分别对英文和中文进行实验。针对中文字词特点,提出基于词边界的词汇增强方法,将潜在词语信息与字词位置信息进行规则整合,通过提高模型输入表示的信息量提升模型效果。最后基于论文提出的模型,设计并实现一个方面级情感分析系统,完成对在线电商中文评论的目标实体识别及情感倾向判断,证明了利用集成标注策略的端到端模型的有效性,为进一步挖掘消费者评论的信息价值提供了帮助。实验结果表明Att-HLSTM模型在中英文数据集上相较于基线模型均取得了最优效果,英文数据集的F1值分别达到了58.19%、68.70%,中文数据集F1值达到了66.16%,使用论文提出的词汇增强表示方法相较于基线模型F1值得到了4%的提升。
中文医疗命名实体识别的研究
这是一篇关于命名实体识别,外部知识,词汇增强,自注意力机制,电子病历的论文, 主要内容为命名实体识别的主要工作是从无结构的文本中提取出特定实体,如人名、地名等,是一项重要的研究工作。近些年来,计算机技术的发展带来了宝贵的有标注的电子医疗数据,使得我们可以利用深度学习相关的技术进行信息提取,为未来智慧医疗的建设、知识图谱的构建等工作打下基础。相对于开放域的命名实体识别,人们在医疗领域的命名实体识别上所做的工作较少。医疗上的实体识别有其特定的困难,如实体专业知识性较强、部分类别实体过长、存在中英文混合的复杂实体等。虽然开放域的命名实体识别已经有相当多的研究经验,但针对医疗命名实体识别还需要“对症下药”。针对这些问题,本文主要的工作如下:·基于外部知识增强的方法针对医疗领域中专业知识较强,且医疗领域外部资源丰富,本文探究如何利用这些外部资源并将其融入到模型中。本文构建医学词典,并提出两个外部知识获取方法:特征模板法和分词标注法。特征模板法提取上下文文本特征,分词标注法提取实体位置及类别标签特征,并融入到长短时记忆网络中。实验结果表明,引入外部知识能够有效地增加模型识别实体的准确率。·基于自注意力机制的模型改进针对医学领域部分实体较长的问题,在预测时容易发生实体断裂、边界错误等情况。本文通过向模型中引入自注意力机制,即引入字符与字符之间的相关性,使长实体内部字符的凝聚力更高,缓解长实体预测断裂、预测边界错误的情况。实验结果表明,模型在整体识别效果上有提升,对长实体预测正确率也有明显上升。·基于级联分层的命名实体识别为进一步提升模型的效果,提出了级联分层识别模型,将原本单任务的命名实体识别改为多任务模型,一个任务划分实体边界,另外一个任务预测实体类别。同时结合自注意力机制,并提出两种将外部知识融入到模型的方法:嵌入层融合法和分层融合法,后续在CCKS数据集上的实验表明,模型的识别效果有所提升。分析结果表明分层融合法效果更优,对比Bi LSTM-CRF模型的F1值提高了3.3%,将命名实体识别视为多任务的级联分层识别模型能够更好地融合外部知识。
基于深度学习的端到端方面级情感分析算法研究及应用
这是一篇关于方面级情感分析,注意力机制,长短期记忆网络,词汇增强的论文, 主要内容为随着互联网技术的快速发展,各种社交平台和电商平台也应运而生,极大地拓宽了人们的言论空间,产生了带有情感倾向的海量文本数据。对这些文本数据进行情感分析,对社会和商业等领域有重要意义。方面级情感分析旨在识别一句话中不同目标实体的不同情感倾向,具有重要研究价值。论文首先利用集成标注策略,将实体标签与情感极性标签融合,将方面级情感分析任务定义为序列标注任务,实现端到端的方面级情感分析;针对端到端模型中缺乏文本间交互信息学习的问题,在Bi LSTM-CRF框架基础上引入多头注意力机制,利用多头注意力构造不同子空间加强模型对句子内部结构的学习,增强模型聚焦不同语义信息的能力。其次,为了加强目标实体识别与情感分析任务之间的依赖关系,提出基于注意力机制的层次双向长短期记忆网络模型(Att-HLSTM),利用残差连接方式建立层次神经网络,使底层的目标实体边界预测结果作用于上层神经网络学习,添加门机制进行情感一致性优化。此外,目前中文方面级情感分析任务研究不足,中文复杂的语言特点制约了中文情感分析任务的发展。论文在实验中添加中文数据集,分别对英文和中文进行实验。针对中文字词特点,提出基于词边界的词汇增强方法,将潜在词语信息与字词位置信息进行规则整合,通过提高模型输入表示的信息量提升模型效果。最后基于论文提出的模型,设计并实现一个方面级情感分析系统,完成对在线电商中文评论的目标实体识别及情感倾向判断,证明了利用集成标注策略的端到端模型的有效性,为进一步挖掘消费者评论的信息价值提供了帮助。实验结果表明Att-HLSTM模型在中英文数据集上相较于基线模型均取得了最优效果,英文数据集的F1值分别达到了58.19%、68.70%,中文数据集F1值达到了66.16%,使用论文提出的词汇增强表示方法相较于基线模型F1值得到了4%的提升。
基于深度学习的命名实体识别方法研究
这是一篇关于命名实体识别,词汇增强,反事实模型,多特征嵌入,多网络融合的论文, 主要内容为命名实体识别是信息挖掘的主要手段,在知识图谱的构建以及推荐系统的应用中发挥着重要作用。随着深度学习技术的不断创新发展,在完成命名实体识别任务上效果显著,但依然面临着诸多挑战,比如识别实体不准确的问题,主要有两方面原因,一方面在于医疗领域已标注数据匮乏导致模型识别性能不佳,另一方面在于实体边界难以确定导致语义信息提取不完整。针对上述问题,本文基于深度学习的方法,对电子病历的结构特点以及命名实体识别的关键技术做了深入研究,分别提出了引入反事实机制增强词汇的方法以及结合多特征嵌入和多网络融合的方法,用于解决医疗领域命名实体识别任务中现存的问题。本论文的主要工作和创新点如下:(1)针对医疗领域已标注数据匮乏的问题,本文提出了引入反事实机制增强词汇的模型。该模型对传统词汇增强的方法进行改进,借助反事实的思想,对实体所在的上下文进行干预,将实体替换为同类型的其他实体以生成新的数据;并引入掩码语言模型对上下文中的非实体进行填充,实行两步走策略完成数据增强工作。在该模型中不仅融合了已标注语料中的词汇信息,还嵌入了字符特征和位置特征,能够进一步确定实体的边界位置,丰富字符的特征表达。实验结果显示该模型在两个数据集上均展现出优越的性能,有效解决了医疗领域已标注数据匮乏的情况,极大地增强了语料,同时,本文采用融合词汇信息的方法丰富特征,提高了识别实体的准确度。(2)针对实体提取不准确、语义信息提取不完整的问题,本文提出了结合多特征嵌入和多网络融合的模型。该模型在字符嵌入和单词嵌入的基础上,融合部首特征和外部知识特征,并构建多语义词典,进一步确定实体边界的位置。对图卷积网络模型进行改进,提出了自适应图卷积网络模型,通过不断聚合邻近节点的特征进而捕获全局的语义信息,并与长短时记忆网络提取的特征融合,实现双通路的特征提取,深层次的捕获文本特征,极大地丰富了语义信息的表达。本文模型分别在两个数据集上进行实验分析,结果显示,该模型与目前先进的模型相比性能均有所提升,有效解决了实体识别不准确的问题,充分证明了该模型的有效性。
基于预训练模型的医疗命名实体识别方法研究
这是一篇关于命名实体识别,BERT,词汇增强,多任务学习的论文, 主要内容为我国作为人口大国,医疗资源是关系民生的关键所在。随着互联网技术的发展,越来越多的学者将计算机技术应用于医疗领域的研究中。利用命名实体识别技术提取医疗文本实体,构建医疗相关知识图谱,能有效提升医疗水平与效率。本文对命名实体识别方法展开研究,提出了两种基于预训练模型的命名实体识别模型,并将它们应用于医疗领域实体识别中,旨在提升医疗领域实体识别的准确率。本文首先基于BERT-BiLSTM-CRF模型展开研究,这是一种以BERT预训练模型作为编码器得到文本的字级向量表示,之后通过双向LSTM模型学习句子双向的时序信息,最后结合基于统计概率的条件随机场获取数据间更深层次的关系,从而得到更为准确的预测模型。虽然BERT在文本表示上效果优异,但在中文命名实体识别中,其输入仍是字级向量表示,而中文文本中,词汇才是表达含义的最小单元,输入字级向量虽然可以避免输入词级向量时由分词标准不同而产生的噪声,但却浪费了拥有更多信息的中文词汇。综上,本文首先提出了一种基于Tag Embedding和Simple Lexicon词汇增强与字词信息融合的预训练模型,该模型于不同的网络层级引入了两种信息增强的方式,以对中文中词汇信息加以利用。其中,基于Tag Embedding和Simple Lexicon的词汇增强方法作用于词嵌入层中,该方法将句子按不同维度进行划分,能够获取更为丰富的文本表示。基于字词信息融合的词汇增强方法作用于BERT编码输出层,将文本的词界信息融入到经编码后表达更为丰富的文本表示中,增加其所包含信息量。该模型在中药说明书数据集上取得了较为理想的效果。随后,本文对该模型展开分析与讨论,找出了其中不足:虽然引入分词向量增加了字级向量的信息丰富度,但遇到了与直接对模型输入词级向量所带来的类似问题,即受到不同的分词标准与参差不齐的分词质量的影响,直接引入词级向量会为模型带来噪声。基于此问题,我们提出了基于对抗学习与网络共享的多任务预训练模型,该模型引入多任务联合学习,将命名实体识别作为主任务,中文分词任务作为副任务进行训练。通过共享编码层以及门控神经网络来为命名实体识别任务进行信息增强,同时引入对抗学习模块,去除共享信息中由于中文分词任务的特异性所带来的噪声,提升模型鲁棒性。对比基线模型RoBERTa-wwm-ext-base,该模型在CMe EE数据集上的F1分值有所提升。同时对比基于Tag Embedding和Simple Lexicon词汇增强与字词信息融合的预训练模型,该模型效果更优。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设海岸 ,原文地址:https://bishedaima.com/lunwen/49185.html