基于社交网络的情感分析和兴趣挖掘的研究和应用
这是一篇关于社交网络,情感分析,词嵌入,语言模型,兴趣爱好的论文, 主要内容为随着互联网技术的快速发展和广泛应用,互联网数据呈现出爆发式增长态势,网民正以多种方式参与到这种新型的信息交互平台中。在这样的背景下,越来越多的学者开始参与到社交网络数据挖掘分析与应用的研究中。其中基于互联网数据的用户情感分析和兴趣爱好识别,是其中两项重要的研究内容。早期的学者多尝试词袋模型和简单的机器学习算法,随着语言模型的发展,相关任务的准确度还有很大的提升空间。另外,对于词嵌入和词语相似度的研究虽然有很多学者做了尝试,但很少有学者对兴趣之间本身的相似关系开展研究。本文的主要研究内容和贡献如下:(1)提出了一种基于BERT的情感分析模型BE-LSTM*。论文首先对语料文本做了预处理,再进行词嵌入和神经网络的训练,通过使用BERT语言模型实现词嵌入,再由循环神经网络LSTM进行分类。为了探讨BERT作为词嵌入模型对情感分类任务的影响,本文选择了 word2vec作为词嵌入基准模型。另外,本文使用了三个不同类型的数据集,在这些真实的数据集上的实验结果表明,基于BERT的语言表达模型结合神经网络比传统的神经网络具有明显的效果提升。(2)基于词嵌入对兴趣相似度展开了研究。提出一种改进的词语相似度计算方法——距离组合相似度(DCS),和基准方法进行了比较并观察该方法在公共数据集下的表现。然后通过收集LinkedIn用户的真实个人数据,使用标准化方法将多种表达形式的兴趣项整理成标准化兴趣项,并从中挖掘出高频的兴趣项作为研究对象,通过词嵌入和DCS相似度计算方法挖掘相似的兴趣项集合。(3)探索研究成果的应用。提出了一种基于兴趣相似度的兴趣爱好挖掘方法,将词嵌入和DSC相似度计算方法相结合,应用到社交网络用户兴趣挖掘中。设计对比实验验证了该方法可以解决传统方法泛化能力不足的问题,提升了兴趣挖掘的命中率。本文还介绍了基于大规模社交网络数据的用户分析系统并作了项目背景,系统功能等方面的阐述。通过将本文的主要两项研究内容应用于该系统,实现了包括情感分析,成员识别,兴趣爱好识别,用户关系分析等功能。本文提出的方法可以在网络中多种类型的评论信息里快速地判断用户的情感极性,并且可以佐证人类的兴趣之间存在有效的相似关系。研究成果不仅对社交网络中用户情感特征分析具有借鉴意义,同时也对兴趣推荐系统相关的商业领域有很大的应用价值。
维吾尔中介语语料库管理系统建设及自动标注技术研究
这是一篇关于维吾尔语,中介语,语料库建设,自动标注,语言模型的论文, 主要内容为语料库在建设的过程中是一个浩大的工程。在针对已经建立好的一些语料库和中介语语料库中伴随的大量研究成果充分证明了它的重要性。构建过程中还需要不同层次专业人员的参与。因此维吾尔中介语语料库系统的实现,对提高维吾尔语教学质量及维吾尔语专业人才培养质量有深远的影响。本系统主要从三个方面进行了设计与研究:第一、针对维吾尔中介语语料库的构建提出了总体规划,包括对标注代码设计,数据采集的内容与范围进行了分析和采集;第二、利用基于Java EE设计开发了维吾尔中介语语料库管理系统,解决了维文、数字、英文字母与符号混排时格式错误问题,设计了维文JS输入包,用户无需安装第三方维文输入法,可以在本系统直接输入维文,顺利地完成对中介语语料的录入、审核、标注和检索等工作;第三、由于采集回来的语料信息繁多,在标注过程中需要人工进行标注,工作量巨大。为此,利用了两种方法对自动标注技术进行了研究,两种方法分别为:偏误词典库与字符串匹配的方法和语言模型训练的方法。目前,维吾尔中介语语料库系统经测试后已经开始投入使用,对自动标注方法也已经进行了测试,达到预期的目标。
维吾尔中介语语料库管理系统建设及自动标注技术研究
这是一篇关于维吾尔语,中介语,语料库建设,自动标注,语言模型的论文, 主要内容为语料库在建设的过程中是一个浩大的工程。在针对已经建立好的一些语料库和中介语语料库中伴随的大量研究成果充分证明了它的重要性。构建过程中还需要不同层次专业人员的参与。因此维吾尔中介语语料库系统的实现,对提高维吾尔语教学质量及维吾尔语专业人才培养质量有深远的影响。本系统主要从三个方面进行了设计与研究:第一、针对维吾尔中介语语料库的构建提出了总体规划,包括对标注代码设计,数据采集的内容与范围进行了分析和采集;第二、利用基于Java EE设计开发了维吾尔中介语语料库管理系统,解决了维文、数字、英文字母与符号混排时格式错误问题,设计了维文JS输入包,用户无需安装第三方维文输入法,可以在本系统直接输入维文,顺利地完成对中介语语料的录入、审核、标注和检索等工作;第三、由于采集回来的语料信息繁多,在标注过程中需要人工进行标注,工作量巨大。为此,利用了两种方法对自动标注技术进行了研究,两种方法分别为:偏误词典库与字符串匹配的方法和语言模型训练的方法。目前,维吾尔中介语语料库系统经测试后已经开始投入使用,对自动标注方法也已经进行了测试,达到预期的目标。
基于知识增强的预训练语言模型研究
这是一篇关于自然语言处理,预训练,语言模型,知识增强的论文, 主要内容为通用深度预训练语言模型在大规模无监督信息的语料库上利用精心设计的自监督预训练任务进行训练,它在下游数据集上只需要简单的微调就能够打破之前模型的最好成绩,给自然语言处理领域带来了跨越式的发展。然而,尽管上述模型能够在很多下游任务上具有良好的表现,在一些特定领域任务和强知识驱动型任务上,它们的表现并不能令人满意,还有很大的提升空间。随着近来大规模知识图谱的构建和发展,现有的一些工作提出了利用外部知识去增强预训练语言模型,对于知识增强预训练语言模型的研究有望实现逼近具有人类水平的人工智能,有很高的学术价值和现实意义。然而目前的工作缺少对异质多源知识图谱的利用,也很少关注知识图谱中的结构化信息,对知识图谱的挖掘程度尚且不够。同时,从模型吸收和利用外部知识的情况看,目前还没有工作考虑过模型是否真正理解注入的知识,这会使得注入的知识没有办法按照原本预想的方式生效,降低效果的同时无法如我们所愿构造更鲁棒高效的人工智能。因此,本文为解决这些问题,做了包含如下内容的主要工作:1.基于图神经网络的多源知识融合。多源知识融合重点在于能够将多个知识图谱的异质知识进行有效融合和表示。本文提出基于图神经网络的多源知识融合,首先对各个相互异质的知识图谱分别构建同质图实现对他们各自的表示,然后进行图融合形成一张统一的异质图,之后通过混合图注意力机制提升各个节点的表示,再将高质量的整图表示通过位置特定的门控机制融合回预训练语言模型中,减少了知识噪声的引入。整体最终实现了高效的多源知识融合和表示,为模型利用这些多源异质知识进行综合以及推理做好了基础工作。2.基于知识上下文的结构化信息利用。知识图谱中的结构化信息可以粗略地理解为围绕一个目标实体由其周围邻居关系构成的结构信息。本文提出知识上下文的概念,进一步利用结构化信息对输入文本中实体表示的进行增强。本文提出了基于实体-邻居的混合注意力以及知识上下文建模的预训练任务帮助将预训练语言模型产生的实体表示信息传入到其周围邻居实体中,并反过来通过聚合周围邻居实体的表示去增强中心目标实体的表示,促进不同实体通过共同邻居交流信息,以此为表示较差的低频实体提供额外的全局知识上下文。3.基于双向映射预训练的知识理解增强。目前知识增强预训练语言模型的相关工作忽视了模型对于注入知识的理解。本文提出了双向映射提升知识理解的预训练任务。通过训练模型从文本到实体的转化能力和反过来从实体到文本的转化能力,让模型能够将相关实体文本转化为知识嵌入空间的对应实体,进行综合推理后再转化回自然语言的文本表示输出,实现了对注入知识的掌握和利用,大大提高了模型在相关任务上的表现。本文的主要贡献点均设置了大量的实验和相应分析,有效证明了提出模型和机制的合理性、可靠性和有效性,进一步推动了相关研究的发展。
基于社交网络的情感分析和兴趣挖掘的研究和应用
这是一篇关于社交网络,情感分析,词嵌入,语言模型,兴趣爱好的论文, 主要内容为随着互联网技术的快速发展和广泛应用,互联网数据呈现出爆发式增长态势,网民正以多种方式参与到这种新型的信息交互平台中。在这样的背景下,越来越多的学者开始参与到社交网络数据挖掘分析与应用的研究中。其中基于互联网数据的用户情感分析和兴趣爱好识别,是其中两项重要的研究内容。早期的学者多尝试词袋模型和简单的机器学习算法,随着语言模型的发展,相关任务的准确度还有很大的提升空间。另外,对于词嵌入和词语相似度的研究虽然有很多学者做了尝试,但很少有学者对兴趣之间本身的相似关系开展研究。本文的主要研究内容和贡献如下:(1)提出了一种基于BERT的情感分析模型BE-LSTM*。论文首先对语料文本做了预处理,再进行词嵌入和神经网络的训练,通过使用BERT语言模型实现词嵌入,再由循环神经网络LSTM进行分类。为了探讨BERT作为词嵌入模型对情感分类任务的影响,本文选择了 word2vec作为词嵌入基准模型。另外,本文使用了三个不同类型的数据集,在这些真实的数据集上的实验结果表明,基于BERT的语言表达模型结合神经网络比传统的神经网络具有明显的效果提升。(2)基于词嵌入对兴趣相似度展开了研究。提出一种改进的词语相似度计算方法——距离组合相似度(DCS),和基准方法进行了比较并观察该方法在公共数据集下的表现。然后通过收集LinkedIn用户的真实个人数据,使用标准化方法将多种表达形式的兴趣项整理成标准化兴趣项,并从中挖掘出高频的兴趣项作为研究对象,通过词嵌入和DCS相似度计算方法挖掘相似的兴趣项集合。(3)探索研究成果的应用。提出了一种基于兴趣相似度的兴趣爱好挖掘方法,将词嵌入和DSC相似度计算方法相结合,应用到社交网络用户兴趣挖掘中。设计对比实验验证了该方法可以解决传统方法泛化能力不足的问题,提升了兴趣挖掘的命中率。本文还介绍了基于大规模社交网络数据的用户分析系统并作了项目背景,系统功能等方面的阐述。通过将本文的主要两项研究内容应用于该系统,实现了包括情感分析,成员识别,兴趣爱好识别,用户关系分析等功能。本文提出的方法可以在网络中多种类型的评论信息里快速地判断用户的情感极性,并且可以佐证人类的兴趣之间存在有效的相似关系。研究成果不仅对社交网络中用户情感特征分析具有借鉴意义,同时也对兴趣推荐系统相关的商业领域有很大的应用价值。
基于神经网络的中文知识图谱问答研究
这是一篇关于知识图谱问答,问题分类,语义匹配,语言模型,注意力机制的论文, 主要内容为问答系统是信息检索、人工智能和自然语言处理领域中的一项热门研究任务,并且具有非常广泛的发展前景。知识图谱问答是该研究的一个重要分支,即给定一个自然语言问句,问答系统从已有知识库中搜索相关的实体或文本作为该问句最后的答案。在理解问句和搜索答案的过程中,涉及到问题分类、实体提及识别、实体链接、候选关系识别和语义解析等多个自然语言处理任务。而问题分类是问题理解的核心环节,问答系统的质量直接受到分类精度的影响。候选关系识别是一种语义匹配任务,比较问题和候选关系的语义相似性,是答案搜索的关键步骤。本文基于神经网络的方法,针对中文知识图谱问答这一任务进行了相关研究,主要内容如下:(1)基于语言模型和注意力机制的中文问题分类针对中文问句的长度普遍较短、含有的语义特征信息较少以及疑问词在句中的位置不确定等问题,本文提出了一种新的分类模型。相比于传统的词嵌入模型,该方法借助最新的预训练语言模型进一步增强了问句中每个词的分布式表示,然后通过双向长短期记忆网络获取上下文的语义特征,最后利用注意力模型加强了对句子中疑问词信息的关注。在三份数据上的实验结果表明,提出的模型比基准模型可以获得平均3.63%的性能提升,体现了良好的分类性能。(2)基于语义相似度计算的候选关系识别方法传统方法大多是将句子看成是一系列分词的集合,通过计算句中每个词出现的频次来构建特征向量,然后使用余弦距离等评价方法比较句子相似度。然而这些方法仅仅考虑了句子中单词级别的特征,而不是语义级别,忽视了很多句法和单词顺序等重要信息。本文提出了一种新的神经网络框架,该框架基于孪生网络设计了多种注意力机制,实现了句子对之间的语义相似度匹配。实验结果表明,所提模型可以充分利用文本的语义信息,在CCKS2018语义匹配评测任务提供的数据集上F1值为84.59,排名第四。(3)基于多标签策略的中文知识图谱问答系统目前很多已有方法只能处理仅需一个三元组知识就能回答的简单问题,而对于问句中涉及到多个三元组知识的复杂问题却无法解决,包括多个实体和多个关系。本文提出了一个新的基于多标签策略的问答系统,该系统包含问题处理和答案搜索两个主要模块。在问题处理模块中,分别对问题的主题实体提及识别、实体链接和候选关系识别三个任务提出了不同的模型框架。借助多个标签的策略,将现有中文问句分成简单问句、链式问句和多实体问句。在答案搜索模块中,针对前面三种问题分别设计了不同的解决方案。实验结果表明,所提方法能够获得较好的性能,在CCKS2019-CKBQA公开评测数据的验证集上平均F1值为66.76,排名第二。
面向招聘行业的搜索系统设计与实现
这是一篇关于语言模型,多维查询,语义检索,Elasticsearch,Milvus的论文, 主要内容为互联网行业的发展促进了信息数据呈现爆发式增长,如何让用户从海量的信息中快速获取想要的数据成为了互联网公司面临的首要问题。搜索引擎通过对文档建立索引实现对文档的快速检索,公司构建垂直领域的搜索引擎成为一种必然趋势。针对传统搜索引擎基于关键词的检索,本文结合自然语言处理技术设计并实现了一个结合关键词召回和语义召回的搜索系统,针对招聘方大批量的简历搜索的需求,系统基于ES(Elasticsearch)实现了多字段约束下的简历查询;针对复杂的、业务相关的专有名词的搜索,系统基于深度学习中的掩码语言模型(Masked Language Model):Word2vec、Bert训练排序模型,利用排序模型将词语转换成语义向量,通过计算语义向量的相似度来召回语义相近的词语,降低使用系统的要求。本文的主要工作如下:(1)在搜索句子的解析中,构建和训练命名实体识别(Named Entity Recognition,NER)模型:Bilstm+CRF、Transformer+CRF,然后利用 N-gram 语言模型、前缀树数据结构、编辑距离算法等技术实现了搜索词纠错、搜索词补全等功能。(2)利用Lex和Yacc工具对查询句子进行解析实现了查询句子到ES输入格式的转换,实现了基于ES的多维查询。包括词法规则定义、语法规则定义、抽象语法树的构建。(3)在语义向量检索的方法中,系统利用Word2vec语言模型编码词向量、利用Bert预训练语言模型训练排序模型并进一步实现编码句向量,最终结合开源向量检索框架Milvus实现语义向量的召回。
融合评论信息的深度推荐模型研究
这是一篇关于推荐系统,基于评论的评分预测,高斯混合模型,深度学习,语言模型的论文, 主要内容为在大数据时代,人们能接触到的数据出现了几何级别的爆炸增长,与之带来的是信息过载问题。推荐系统作为解决信息过载的重要手段,它可以帮助人们从纷繁复杂的数据中找到其可能感兴趣的信息。推荐技术在过去几十年的时间内得到了飞快的发展,在电子商务、信息检索、新闻推送等领域获得了广泛的应用,但是现有推荐技术依旧存在很多历史问题,如数据稀疏问题、冷启动问题等。为了解决这些历史问题,在推荐系统中融入评论信息已经被证明是非常有效的方法,可以为用户偏好商品属性特征挖掘提供更多的支持。同时随着深度学习技术的飞速发展,深度学习其强大的处理复杂问题的潜力和能够处理大规模多维数据的能力也为推荐系统带来了新的突破点。为了提升推荐性能,主要要解决下面两个问题:一是如何从复杂的评论信息中提取能表征用户/商品的特征,二是如何将这些特征信息应用于推荐系统中。针对第一个问题,本文对比了词袋模型、概率主题模型、词向量模型等文本表示模型,最终使用神经网络搭建的词向量模型对评论文本信息进行建模,同时将语言模型整合进推荐系统中。本文将每个词表示为词嵌入的形式,随着模型训练动态更新词向量,与已有的使用词袋方法的主题模型相比,从文本中提取的特征属性能够更好得应用于评分预测推荐任务。针对第二个问题,本文所提出的神经高斯混合模型从评论文本中建模出用户偏好特征和商品属性特征,在并行的神经网络上层构建高斯混合层来捕获用户和商品间的交互,并通过不同的特征学习到评分信息和权重信息。这就是本文提出的B-NGMM 模型(Neural Gaussian Mixture Model with Bert for Review-based Rating Prediction),模型模仿了用户对商品的评分行为。最后为了验证本文构建的融合评论信息的深度推荐模型的推荐性能,在五个真实的Amazon评论数据集上对我们的模型进行了测试,实验结果表明,本文提出的B-NGMM模型在基于评论信息的评分预测任务中具有较好的推荐性能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计工坊 ,原文地址:https://bishedaima.com/lunwen/48468.html