基于评论的多维度观点挖掘的方法研究和实现
这是一篇关于观点挖掘,情感分析,序列标注,互联网评论的论文, 主要内容为电商及网络媒体中的评论,反映了消费者对商品或服务的满意度,对商家和其他消费者的决策具有参考价值。互联网评论文本数量庞大、增长速度快,使其难以用人工方式进行处理,而评论多维度的特点又使处理算法面临困难。本文针对评论文本中的多维度问题进行研究,采用神经网络构建观点挖掘模型,并设计开发观点挖掘系统。本文的工作如下:(1)提出了一种字向量和词向量结合的文本表示作为模型输入,并将注意力机制引入Bi LSTM-CRF模型,构建了一种优化的观点挖掘模型Bi LSTM-attentionCRF。字向量与词向量相结合的文本表示,可获得更丰富的语义信息;Bi LSTMattention-CRF观点挖掘模型,能专注于与观点维度有关的内容,挖掘出评论文本的潜在信息。在AI challenger算法竞赛的餐饮中文评论数据集上设计验证实验,实验结果表明使用词向量和字向量进行组合文本表示对比利用词向量作为文本输入时Macro-F1值提升了0.03,准确率方面提升了2%。Bi LSTM-attention-CRF模型对比基线模型Macro-F1值提升了近0.02,准确率提升了2.3%。(2)提出一个结合长短期记忆网络和卷积门控网络的情感分析模型。在观点维度被挖掘后,利用基于维度的情感分析得到评论中相应维度的情感倾向。针对上下文特征提取问题,给出了选用观点维度词以及右侧上下文的提取方案;基于该方案下的句式特征,构建了LSTM-GCAE的情感分析模型。实验结果表明,LSTMGCAE相比于GCAE模型,Macro-F1值提升了近0.015,准确率提升了近2%。(3)设计开发了一个针对在线评论的观点挖掘系统,实现了对互联网评论的在线抽取和分析处理,利用提出的算法模型进行维度挖掘和情感分析,并将结果可视化呈现。
基于深度学习的垂直领域知识图谱构建方法研究与实现
这是一篇关于领域知识图谱,知识抽取,数据增强,序列标注,概率图模型的论文, 主要内容为随着人工智能的发展,智能的信息服务持续升级,在各种智能信息服务领域均能看到知识图谱的应用,如智能问答、个性化推送、信息检索等。知识图谱帮助计算机学习人的语言交流方式,使计算机像人类一样“思考”,使得各种信息服务反馈给用户更加智能的答案。可以说知识图谱是传统行业和人工智能进行融合的方向,也是人工智能从研究走向落地应用的过程中必不可少的环节。垂直领域知识图谱是针对某个行业,根据该领域的数据来构建的知识图谱,相比于通用知识图谱,更强调知识的深度。虽然在通用领域,学术界和工业界都已经有大规模的标注数据可供知识图谱构建模型进行训练,并且实体和关系抽取技术已经取得了长足进步。但在垂直领域的场景下,存在着标注语料数据量不足,人工标注耗费钱力和精力等难题,并且随着业务的变更,实体和关系的类型会不断地更新,已有的标注数据无法应用在新的实体和关系类型上,这些难题使得在垂直领域构建知识图谱变得非常困难。为了解决垂直领域知识图谱构建困难和低效的问题,本文主要研究如何进行行业知识的抽取,并自动高效准确地构建垂直领域知识图谱。首先,为了构建用于进行知识抽取模型训练的增强数据集,本文提出基于词典和实例交叉的增强数据生成算法。其次,针对行业产品文档中的半结构化数据和非结构化数据,分别设计并实现了基于序列标注和子模式生成的表格知识抽取算法Bi-LSTM-CRF-SSG和基于BERT和概率图模型的联合实体关系抽取模型BERT-PGM。实验结果表明,经过后续容错处理,在测试数据集上,半结构化数据抽取算法能达到99.13%的抽取准确率,非结构化数据抽取算法能达到95.7%的抽取准确率。最后,本文实现了一个垂直领域知识图谱自动构建系统,并从功能和性能两个方面进行了系统测试,测试结果表明系统的功能和性能均满足用户需求。
基于实体关系联合抽取的领域知识图谱构建与应用
这是一篇关于领域知识图谱,实体关系联合抽取,主动学习,序列标注,门控循环单元的论文, 主要内容为随着知识图谱(Knowledge Graph,KG)相关技术的快速发展,领域KG已经成为学界和业界关注的重点。与传统的领域数据管理方法相比,领域KG作为结构化的语义知识库,能够帮助人们有效地获取知识之间的逻辑关系,从而为智能问答、搜索引擎和决策支持等领域应用提供数据支撑。因此,高效的领域KG构建,对领域知识的有效管理、直观展示等具有重要意义。由于领域KG的适用范围较小且更加注重知识的准确度和深度,相较于通用KG拥有的大规模知识,领域KG的构建仍然存在缺乏标注语料等问题。因此,如何以尽可能少的标注语料实现领域KG的构建,是本文研究的关键问题。此外,实体关系的联合抽取,作为领域KG构建过程中的关键环节,现有的模型无法有效抽取领域文本数据中的实体和实体间的重叠关系。因此,如何有效地抽取领域文本数据中实体和实体间的重叠关系,是本文需要解决的另一关键问题。对此,本文提出一种融合主动学习思想的实体关系联合抽取方法,基于抽取的三元组构建领域KG,并将其应用到少数民族独龙族领域。本文的研究工作概括如下:(1)针对领域标注语料缺乏的问题,提出一种基于主动学习的待标注数据采样方法,通过综合评估样本价值和样本相似性选取待标注样本,实验结果表明,本文所提出的待标注数据采样方法能够有效降低标注成本。(2)针对领域文本数据存在的重叠关系问题,提出一种基于BERT-Bi GRU*-CRF的实体关系联合抽取模型,用于对领域文本的实体和关系同时进行抽取。其次,建立在NYT公开数据集和少数民族领域真实数据集之上的实验结果表明,相比于其他现有模型,本文所提出的方法能够更加准确地识别出文本中的实体和关系。(3)本文以独龙族文化领域知识为例,基于本文所提出的领域KG构建方法,设计并开发独龙族文化KG构建与语义问答系统,实现了独龙族文化KG构建、KG可视化查询、独龙族文化领域知识问答等功能。
基于序列标注模型的电商要素识别研究与应用
这是一篇关于序列标注,电商要素识别,预训练语言模型,多源标注数据的论文, 主要内容为挖掘电商文本中的电商事件和理解用户搜索意图对分析用户购物行为和商品场景分类有重要帮助,而这都离不开电商要素识别研究。在本文中,电商要素识别主要包括电商事件触发词识别和商品属性识别这两个任务。本文使用序列标注模型作为基本学习框架,采用预训练语言模型和对未标注数据预测伪标签两种不同的方法来帮助提高模型识别性能。最后在上述研究成果基础上实现电商要素识别系统。具体而言,本文的主要内容如下:(1)基于中文字形ELMo的电商事件触发词识别本文给出电商事件触发词的定义,制定相关标注规范,构建了一个基于电商评论文本的电商事件触发词数据集。我们把事件触发词识别看作序列标注问题,并选择常用的序列标注模型BiLSTM-CRF作为识别系统的基础框架。首先在BiLSTM-CRF模型上加入预训练语言模型ELMo(Embeddings from Language Model)来提高识别性能。进而考虑中文字形特征,包括五笔和笔画特征,提出两种引入字形特征的预训练语言模型。实验结果表明融入字形特征的ELMo可以进一步提高模型性能。我们还分别使用新闻和电商领域两份大规模无标注数据训练语言模型,比较它们在识别系统中的作用。结果表明,电商领域语料对系统帮助更大。(2)基于多源标注数据的商品属性识别商品属性识别面临许多新的行业知识和场景,没有一个数据集能包含所有符合需求的属性。通常不同的商品属性出现在不同的数据资源上,需要联合这些数据资源构建统一的商品属性识别模型。我们首先基于BERT-CRF模型在多源数据上分别构建要素识别模型,然后通过预定的合并算法得到属性识别结果。在此基准方法上,利用这多个模型在未完整标注的实例上预测伪标签,融合多份伪标注数据作为训练数据。为充分利用模型预测的伪标签信息,分别使用边缘概率蒸馏和局部标注学习的方法来训练模型。最终结果表明,本文提出的基于多源数据融合的要素识别系统优于在多源数据上进行模型融合的方法。(3)基于序列标注模型的电商要素识别系统实现本文使用pytorch开源机器学习库搭建了一款轻量级的神经网络序列标注工具NNSLT(Neural Network Sequence Labeling Toolkit),支持用户快速搭建不同的序列标注模型以及在这基础上构建更加复杂的模型。最后基于NNSLT的核心组件和自定义的精确匹配模块,本文实现了电商要素识别系统,支持电商事件触发词识别和商品属性识别。综上,本文在电商场景中基于序列标注模型构建了电商要素识别系统并取得了一些初步的成果。希望能为电商要素识别研究以及其他基于序列标注模型的任务提供帮助。
基于图神经网络的增强实体和关系的联合抽取研究
这是一篇关于关系抽取,Bert,实体标记,实体关系联合抽取,序列标注的论文, 主要内容为关系抽取旨在从非结构化的文本信息中识别出文本实体的目标关系,是构建知识图谱的重要技术环节,也可以为搜索引擎、问答系统等下游任务提供支撑,具有重要的研究意义。目前基于深度学习的关系抽取技术在提取实体前未能很好地融合实体和关系信息,并存在实体语义表示模糊问题。为此,本文开展了基于图神经网络的增强实体和关系的联合抽取研究,主要研究内容如下:(1)针对以往的关系抽取模型在表达实体语义时存在模糊问题,未能很好的突出实体的语义信息与实体之间的上下文信息,本文以Bert和Bi LSTM为基础编码器模型,构造了一个新颖的模型结构,采用实体标记和跨度截取方法增强了实体语义信息。首先,采用实体标记技术使得模型能高效的区分实体位置,提高模型对实体的关注度,同时使模型降低无关词的干扰。其次,使用跨度截取方式获取实体的语义向量并结合编码器头节点联合丰富上下文语义信息,最后通过池化层和分类层获得分类结果。所提出的模型在Sem Eval 2010 Task8数据集上进行实验并获得了89.41%的F1值,较传统模型有显著提升,实验证明了该方法是有效的,能够提升关系抽取的准确率。(2)针对目前现有的实体关系联合抽取模型,在提取实体之前未能很好的融合实体和关系信息,实体模型和关系模型都是以单独的形式存在并输入模型中,忽略了实体和关系之间的隐藏联系。本文采用Bert和Bi LSTM作为基础模型,实体模型和关系模型通过Bert编码器和参数共享方式输入到GAT中,用实体和关系作为图的节点,使全部实体节点融入关系中,全部关系融入到实体中,通过这种迭代融合的方式互相增强语义信息。采用序列标注方法标记实体的开始位置和结束位置,最后计算两个实体和关系的相关性确定三元组。实验在Sem Eval 2010 Task8、NYT、Web NLG三个数据集下进行实验并获得了90.20%、91.92%、92.27%的F1值,与其它改进的模型相比准确率有明显提升,验证了该模型具有更好的性能。
基于用户搜索—点击数据的关键词抽取技术研究
这是一篇关于搜索-点击数据,关键词抽取,自举模板法,图神经网络,序列标注的论文, 主要内容为随着互联网服务的发展,搜索引擎、推荐系统等互联网应用越来越深入我们的生活。在这些应用中,关键词在提高对用户搜索意图的理解、改善内容推送的精准度等方面具有非常重要的作用。使用关键词的前提是能够从数据中抽取到大量高质量的关键词,所以研究如何高效地从数据中抽取关键词具有十分重要的意义。关键词主要来源之一的用户搜索-点击数据直接由用户产生,具有很强的随机性和长尾性,而传统的无监督抽取方法过于依赖统计特征和数据的规模,在该问题中抽取效果不佳;有监督抽取方法精准度较高,但需要人工标注训练数据集对模型进行训练,会产生大量人工标注成本。针对以上问题,本文基于UCCM数据集进行研究,使用无监督方法与有监督方法结合的抽取方法,通过自举模板法自动抽取到部分高质量关键词,并使用它们生成训练数据对有监督方法进行训练并完成关键词的抽取。在无监督方法部分,本文采用自举模板法进行抽取,并使用少量人工标记数据训练了一个关键词过滤器对自举模板法进行修正,最终抽取到大量高质量的关键词。在有监督方法部分,本文搭建了一个Bi LSTM-CRF模型进行抽取并使用词性特征与分词特征对模型进行增强。在最终的抽取实验结果中,模板法在测试集中抽取到2546条关键词,深度学习模型抽取到2736条关键词,并使原生标签的召回率提高了5%,该结果表明该算法的抽取质量较高,但相对模板法外延能力较弱。针对上述模型存在的问题,本文提出了一种基于图数据的关键词抽取算法,将一组搜索-点击数据构建成图的形式,并使用基于关系的图卷积网络对图进行标注,使用本文设计的解码方法从图中抽取出关键词,并且使用词性特征和依存关系特征对模型进行增强。最终的统计结果中,该方法抽取到3471条关键词,相对模板法新抽取到2897条关键词,原生标签召回率提高了9.5%,外延性较强。最终的实验结果证明,本文提出的基于图网络的关键词抽取方法,在模板法生成训练数据的基础上能够有效扩大抽取范围,抽取到大量高质量关键词,具有较高的研究价值。
面向中文文本的文档级事件联合抽取方法与应用研究
这是一篇关于序列标注,联合抽取,事件抽取,注意力机制的论文, 主要内容为事件抽取是知识图谱的重要研究方向。传统的事件类型作为分类任务抽取,可以有效提取句子中的事件类型,但是随着句子长度的增加,特别是面向文档级事件抽取任务时,传统的事件抽取算法存在三个问题:一是跨句子的事件角色和事件类型匹配问题,二是文档级数据中事件类型太多且分散在多个句子中,三是中文标注数据缺乏问题。序列标注方式可在保持事件序列信息的基础上提取语义信息,而注意力机制(Attention)可在关注局部信息的同时捕捉全局信息,克服了序列模型中长距离依赖关系获取问题,且Attention抛弃了序列信息,每一步距离都为一,可并行运算,减少模型训练时长。因此,本文结合序列标注理论,提出了一种新的事件联合抽取算法,将事件类型分类作为一个序列标注任务,保持序列信息,可避免事件类型与事件论元匹配的错误,并且结合Attention机制有效提取长文本中的语义信息,充分考虑了多句子之间的相似性和差异性,在文档级事件抽取任务中抽取更多事件论元。本文的主要研究工作如下:1.针对句子论元分散问题,结合序列标注思想,提出了一种基于序列标注的事件联合抽取方法。首先,结合卷积神经网络(Convolutional Neural Networks,CNN)与长短期记忆网络(Long Short-Term Memory,LSTM)提取全局特征和局部特征,抽取单文档中的多种事件类型;其次,引入序列标注完成事件抽取任务,并实现事件类型与事件论元的自动匹配;然后,采用LSTM作为浅层参数共享层网络,并结合Self-Attention抽取单独任务特征,完成事件联合抽取任务;最后,条件随机场(Conditional Random Field,CRF)层进行标签约束解码,得到最终标签序列。实验结果表明,该方法优于文献方法,能有效地提取文档中的事件信息,并将该模型应用于司法领域中的争议焦点识别。2.针对文档事件中,事件信息较少,事件标注较为稀疏问题,结合多粒度思想,提出了一种基于Attention的文档级事件联合抽取算法。首先,在建模时将模型分为两部分进行,一部分Attention提取字词级别的语义信息,另一部分提取句子级别的语义信息;然后,融合序列标注和联合抽取算法;最后,联合抽取事件类型与事件论元。实验表明该方法能有效提取文档数据中的事件信息。3.针对中文事件标注语料少,缺乏实际应用领域问题,构建司法领域标注语料和文档级事件抽取演示系统。首先,在网上下载司法领域数据,并根据数据特点进行数据清洗;其次,采用BRAT在线标注系统打标数据;最后,基于本文算法建立文档级事件抽取系统,通过事件抽取结果和事件地图展示,使司法事件的记录更加系统化。
面向中文文本的文档级事件联合抽取方法与应用研究
这是一篇关于序列标注,联合抽取,事件抽取,注意力机制的论文, 主要内容为事件抽取是知识图谱的重要研究方向。传统的事件类型作为分类任务抽取,可以有效提取句子中的事件类型,但是随着句子长度的增加,特别是面向文档级事件抽取任务时,传统的事件抽取算法存在三个问题:一是跨句子的事件角色和事件类型匹配问题,二是文档级数据中事件类型太多且分散在多个句子中,三是中文标注数据缺乏问题。序列标注方式可在保持事件序列信息的基础上提取语义信息,而注意力机制(Attention)可在关注局部信息的同时捕捉全局信息,克服了序列模型中长距离依赖关系获取问题,且Attention抛弃了序列信息,每一步距离都为一,可并行运算,减少模型训练时长。因此,本文结合序列标注理论,提出了一种新的事件联合抽取算法,将事件类型分类作为一个序列标注任务,保持序列信息,可避免事件类型与事件论元匹配的错误,并且结合Attention机制有效提取长文本中的语义信息,充分考虑了多句子之间的相似性和差异性,在文档级事件抽取任务中抽取更多事件论元。本文的主要研究工作如下:1.针对句子论元分散问题,结合序列标注思想,提出了一种基于序列标注的事件联合抽取方法。首先,结合卷积神经网络(Convolutional Neural Networks,CNN)与长短期记忆网络(Long Short-Term Memory,LSTM)提取全局特征和局部特征,抽取单文档中的多种事件类型;其次,引入序列标注完成事件抽取任务,并实现事件类型与事件论元的自动匹配;然后,采用LSTM作为浅层参数共享层网络,并结合Self-Attention抽取单独任务特征,完成事件联合抽取任务;最后,条件随机场(Conditional Random Field,CRF)层进行标签约束解码,得到最终标签序列。实验结果表明,该方法优于文献方法,能有效地提取文档中的事件信息,并将该模型应用于司法领域中的争议焦点识别。2.针对文档事件中,事件信息较少,事件标注较为稀疏问题,结合多粒度思想,提出了一种基于Attention的文档级事件联合抽取算法。首先,在建模时将模型分为两部分进行,一部分Attention提取字词级别的语义信息,另一部分提取句子级别的语义信息;然后,融合序列标注和联合抽取算法;最后,联合抽取事件类型与事件论元。实验表明该方法能有效提取文档数据中的事件信息。3.针对中文事件标注语料少,缺乏实际应用领域问题,构建司法领域标注语料和文档级事件抽取演示系统。首先,在网上下载司法领域数据,并根据数据特点进行数据清洗;其次,采用BRAT在线标注系统打标数据;最后,基于本文算法建立文档级事件抽取系统,通过事件抽取结果和事件地图展示,使司法事件的记录更加系统化。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://bishedaima.com/lunwen/48855.html