面向社交媒体文本的汉越跨语言对象级情感分析方法研究
这是一篇关于社交媒体,跨语言,观点对象,对象级情感分析,特征迁移的论文, 主要内容为随着互联网的迅速发展,对相同事件下汉越社交媒体数据中的关注对象进行识别、对齐并针对相应对象进行情感分析,能够把握两国舆情动态从而进一步开展关于热点事件分析、监测和预警任务。面向社交媒体文本的汉越跨语言对象级情感分析,存在越南语标注数据稀缺,观点对象难以表征,情感表征映射难以对齐,评论特征学习不充分等研究问题,值得深入研究。本文研究面向社交媒体文本的汉越跨语言对象级情感分析方法,主要从以下几个方面开展研究:(1)汉越跨语言对象级情感分析数据集构建:由于缺乏公开的汉越跨语言对象级情感分析语料,本文构建了汉越跨语言对象级情感分析数据集。首先从不同社交媒体平台,如新浪微博和推特中采集到热点事件相关的社交媒体评论数据。其次,根据汉越跨语言观点对象识别任务和汉越跨语言情感分类任务的不同需求进行数据标注,构建出汉越跨语言对象级情感分析数据集,为后面的研究提供数据支撑。(2)基于图神经网络的汉越跨语言观点对象识别方法:任务旨在围绕相同事件下汉越评论中的观点对象进行识别和对齐,现有的研究方法应用存在越南语标注数据稀缺,跨语言评论关联复杂,观点对象表征比较困难等问题。考虑到在讨论相同事件时,汉越评论之间存在相同的观点对象,利用图结构能够解决关联关系复杂的问题,通过节点之间的信息传递加强对汉越观点对象的表征学习。因此本文提出了一种基于图神经网络的汉越跨语言观点对象识别方法。通过构建包括汉越评论和关键词的异构图,有效地建模汉越评论中的复杂关联关系,利用图结构来实现邻域信息聚合和评论节点更新,在汉越跨语言观点对象分类数据集上进行实验,结果表明提出的方法相较于基准方法性能有明显提升。(3)融入观点对象特征的汉越跨语言情感分类模型:任务旨在针对汉越评论中的观点对象进行情感倾向性分析,现有模型难以解决情感表征学习不充分,汉越跨语言情感表征映射不准确的问题。考虑到观点对象信息对加强情感表征学习,减小语言差异的作用,考虑将观点对象特征与评论特征进行融合,利用对抗的思想缩小汉越情感特征的差异。提出一种融入观点对象特征的汉越跨语言评论情感分类模型,通过门控机制将观点对象表征与语义表征进行融合编码,并利用对抗学习使模型学习到语言分布差异最小的表征,最终通过中文评论标签训练模型分类器完成情感分类任务。实验结果表明本文模型能更快拟合出语言分布差异,得到更加丰富的情感表征,实验结果对比基线模型都有明显提高。(4)汉越社交媒体评论观点对象分析原型系统:基于上述相关理论研究,本文设计并提出一个汉越跨语言对象级情感分析原型系统,该系统采用Vue框架进行开发搭建,通过element-plus进行设计,系统利用Flask将模型转换为可供调用的API接口整合到系统中,该系统集成了汉越社交媒体评论数据采集、汉越社交媒体评论观点对象识别和汉越社交媒体评论情感分类等功能,为相关用户提供可视化的对象级情感分析平台。
跨语言网络表格实体链接
这是一篇关于表格,实体链接,跨语言的论文, 主要内容为随着信息时代的快速发展,互联网上出现越来越多的HTML格式的表格,这些网络表格中蕴含着丰富的关系型语义信息。作为一种机器理解和认知人类知识的重要途径,我们希望机器能理解和处理这些包含结构化信息的表格。一种常见的方法就是将表格中的文字链接到对应的知识图谱的实体上,例如维基百科的条目,这一技术称为“实体链接”。知识图谱,是一种结构化的海量知识库,存储着大量的实体,以及不同实体之间的关系,从而形成一个巨大的网络。通过将纯文本文字,对应到相应的知识图谱实体,可以帮助我们消去歧义,使得机器更好地理解自然语言,并有助于进一步的自然语言应用,例如自动问答,交互对话等。另一方面,由于表格具有非常好的结构性质,通过抽取表格中的结构化语义信息,可以方便地补充到结构化的知识图谱中,丰富现有知识图谱,使得知识图谱及时补充更多的新知识,从而进一步提高各类基于知识图谱的应用。我们将应用在表格上的实体链接称为“表格链接”。通常情况下,表格链接是在单语环境下进行的,即需要链接的文本文字与知识图谱都是属于同一种语言,例如将英语的表格链接到英语的知识图谱。但是当我们试图让机器去理解一张非英语的表格的时候,我们会发现很多非英语的知识图谱可能不存在,或者是正处在构建中,非常不完备,缺少许多关键的知识条目。因此,本文试图解决一个跨语言环境下的表格实体链接问题,尝试将非英语的表格,直接链接到英语的知识图谱上,而不借助非英语的知识图谱作为中介。跨语言环境下的表格实体链接是一个新问题。结合问题的特殊性和现有方法的缺失,我们提出了一种联合神经网络模型,每次将整张表格作为一个整体进行链接。我们针对表格的特性主要设计了三种特征,分别为指称特征,内容特征和一致性特征,并利用一个预训练的翻译层来打破不同语言之间的不兼容性。同时,为了更好地配合联合模型,我们采用了一般用于排序的损失函数,以区分不同链接正确率的表格,并在预测阶段采用了局部搜索下降的算法来提高效率。本文设计与实现了端到端的多种实验,和不同的基准方法进行了比较,取得了较好的效果,与其他系统相比提高了约13%的准确率。此外,我们还对提出的模型的各个模块进行了多组验证实验,用以证明模型的合理性和有效性。利用本文提出的问题和方法,可以将一张非英语的表格链接到英语的知识图谱,这是融合不同语言不同文化的知识的重要途径。有了这一技术,机器可以更好地理解人类的知识。而通过此技术来对知识图谱进行补全,也能帮助知识图谱融合不同语言和文化的知识,来提高一系列依赖知识图谱的应用。
基于跨语言学习的老挝语实体识别方法
这是一篇关于老挝语,跨语言,命名实体识别,弱监督学习的论文, 主要内容为老挝人民民主共和国(简称老挝)是与我国相邻的东南亚重要国家。作为我国在东盟自由贸易区的重要贸易伙伴,随着我国“一带一路”倡议的实施,老挝与我国经济和文化方面联系更加密切。在这样的背景下,对老挝语进行自然语言处理(Natural language processing,简称NLP)研究具有重要的经济和文化价值。命名实体识别(Named Entity Recognition,简称NER)是关系提取、构建知识图谱、句子相似度计算、情感分析、机器翻译等下游NLP任务的重要信息抽取工具,在自然语言处理技术中具有十分基础的重要地位。本文针对老挝语NLP基础研究薄弱,网络资源较少的特点提出一种基于跨语言学习的老挝语实体抽取方法,主要工作如下:(1)融合词性及音节特征的跨语言老挝语实体识别老挝语是语料资源匮乏的小语种,获取用于命名实体识别任务的人工标注数据十分困难。但在如汉语这种使用人数众多的语言上,已存在如LTP4和Core Stanza类似的实体标注工具。此外,相对于低资源命名实体识别的标注数据,双语平行句对的获取相对容易。因此提出一种融合词性及音节特征的跨语言老挝语实体识别方法,通过双语词向量相似度计算将汉语端的标注数据投影到老挝语后,按照一定策略进行数据去噪处理后得到具有NER标注的老挝语句子。之后使用BILSTM-Attention-CRF模型进行NER建模。使用融合音节、词性特征的词向量作为输入,经过BILSTM网络后输出隐藏状态向量,之后使用注意力机制进行加权;最后,使用条件随机场(CRF)作为老挝语实体识别模型的解码器。实验表明,基于投影的跨语言老挝语命名实体识别模型的值达到了74.13%。(2)融合音素和词性特征的多任务老挝语实体识别在(1)部分已经获取了带有NER标签的老挝语数据并构建了用于老挝语命名实体识别的模型,但是由于对齐误差的存在,不可避免的会引入噪声数据。为提高NER模型的性能,提升低频词的识别率,提出一种使用词性特征和音素特征的多任务老挝语命名实体识别方法。通过对老挝语词性特征和音素特征的预测,进一步提升模型的性能。最终实验表明采用多任务学习后,模型性能得到有效提升。(3)融合汉老双语多特征的跨语言老挝语实体识别虽然在之前的工作中利用双语词向量相似度计算将汉语端的标注数据投影到老挝语得到了NER标注数据,但是这种方法依赖于汉语端的NER标注工具性能,并且这种硬投影方式往往会带来对齐误差。本文提出一种基于XLM跨语言模型的老挝语命名实体识别方法,采用软对齐的方式让模型自动学习汉-老跨语言知识,通过添加汉老跨语言特征模板以及进行MLM和TLM微调来训练老挝语命名实体识别模型,进一步提高模型准确率。最终实验表明,基于XLM跨语言模型的老挝语命名实体识别方法的值达到了76.65%。
基于知识的义原预测方法研究
这是一篇关于义原预测,Hownet,跨语言,知识图谱的论文, 主要内容为义原是语言学家定义的不可分割的最小语义单位,一个词语的任何含义都可以使用有限封闭的义原集合内的元素组合表示。目前义原资源主要来自知网(Hownet),为两百多万中文和英文词语的标注义原信息,并在自然语言处理研究中得到广泛使用。义原信息主要由手工标注和维护,花费大量人力物力,使得义原资源无法大规模运用和自动更新,同时义原标注信息受限于中文和英文两种语言,制约了义原信息在其他语言任务中的应用,因此,实现义原自动化标注,为其他语言丰富义原信息的任务迫在眉睫。为解决上述两个问题,研究人员提出了义原预测以及跨语言义原预测任务,分别为单语言和多语言环境的词语提供义原信息的自动化标注。现有研究多利用词语的词向量信息、外部百科或词典定义信息实现预测;在跨语言义原预测方面,则通过对齐两种语言后转化成单语言预测任务实现。本文挖掘词语关系,从词语间关系角度重新定义义原预测任务,通过引入中文本土哈工大同义词词林扩展版知识图谱,对词林知识图谱和Hownet知识图谱中的词语关系进行融合形成,构建了全新的知识图谱(CH-Graph),以提供词语间关系信息。围绕CH-Graph对基于知识的义原预测任务展开研究,工作如下:(1)在义原预测方面,受图翻译系列模型启发,重新定义了义原预测任务,将预测任务转换成在知识图谱内求解目标词语对应尾实体问题。并提出了基于知识信息的义原预测模型KGSP模型,利用CH-Graph中关系信息完成义原预测任务。(2)在跨语言义原预测方面,延续现有模型“对齐”和“预测”的模型结构。本文提出了知识增强的跨语言词向量对齐方法,以及三种跨语言义原预测系列方法CKSP-S、CKSP-V、CKSP-D分别在源语言(中文)单侧、目标语言(其他语言)单侧、以及源语言与目标语言两侧融入知识图谱内信息实现基于知识的跨语言义原预测。本文随后在Hownet义原知识图谱中进行了实验,实验结果证明了基于知识图谱关系引导的预测模型,在义原预测任务和跨语言义原预测任务上的有效性和可行性,并针对单模型提出了单语言预测与跨语言预测模型的组合模型,模型组合后增强了现有模型的预测精度,达到研究的预期效果与目标。在文章最后设计了知识图谱检索与义原查询的原型系统,用于展示预测效果,并使用微服务框架对外提供预测算法服务。
基于知识的义原预测方法研究
这是一篇关于义原预测,Hownet,跨语言,知识图谱的论文, 主要内容为义原是语言学家定义的不可分割的最小语义单位,一个词语的任何含义都可以使用有限封闭的义原集合内的元素组合表示。目前义原资源主要来自知网(Hownet),为两百多万中文和英文词语的标注义原信息,并在自然语言处理研究中得到广泛使用。义原信息主要由手工标注和维护,花费大量人力物力,使得义原资源无法大规模运用和自动更新,同时义原标注信息受限于中文和英文两种语言,制约了义原信息在其他语言任务中的应用,因此,实现义原自动化标注,为其他语言丰富义原信息的任务迫在眉睫。为解决上述两个问题,研究人员提出了义原预测以及跨语言义原预测任务,分别为单语言和多语言环境的词语提供义原信息的自动化标注。现有研究多利用词语的词向量信息、外部百科或词典定义信息实现预测;在跨语言义原预测方面,则通过对齐两种语言后转化成单语言预测任务实现。本文挖掘词语关系,从词语间关系角度重新定义义原预测任务,通过引入中文本土哈工大同义词词林扩展版知识图谱,对词林知识图谱和Hownet知识图谱中的词语关系进行融合形成,构建了全新的知识图谱(CH-Graph),以提供词语间关系信息。围绕CH-Graph对基于知识的义原预测任务展开研究,工作如下:(1)在义原预测方面,受图翻译系列模型启发,重新定义了义原预测任务,将预测任务转换成在知识图谱内求解目标词语对应尾实体问题。并提出了基于知识信息的义原预测模型KGSP模型,利用CH-Graph中关系信息完成义原预测任务。(2)在跨语言义原预测方面,延续现有模型“对齐”和“预测”的模型结构。本文提出了知识增强的跨语言词向量对齐方法,以及三种跨语言义原预测系列方法CKSP-S、CKSP-V、CKSP-D分别在源语言(中文)单侧、目标语言(其他语言)单侧、以及源语言与目标语言两侧融入知识图谱内信息实现基于知识的跨语言义原预测。本文随后在Hownet义原知识图谱中进行了实验,实验结果证明了基于知识图谱关系引导的预测模型,在义原预测任务和跨语言义原预测任务上的有效性和可行性,并针对单模型提出了单语言预测与跨语言预测模型的组合模型,模型组合后增强了现有模型的预测精度,达到研究的预期效果与目标。在文章最后设计了知识图谱检索与义原查询的原型系统,用于展示预测效果,并使用微服务框架对外提供预测算法服务。
跨语言网络表格实体链接
这是一篇关于表格,实体链接,跨语言的论文, 主要内容为随着信息时代的快速发展,互联网上出现越来越多的HTML格式的表格,这些网络表格中蕴含着丰富的关系型语义信息。作为一种机器理解和认知人类知识的重要途径,我们希望机器能理解和处理这些包含结构化信息的表格。一种常见的方法就是将表格中的文字链接到对应的知识图谱的实体上,例如维基百科的条目,这一技术称为“实体链接”。知识图谱,是一种结构化的海量知识库,存储着大量的实体,以及不同实体之间的关系,从而形成一个巨大的网络。通过将纯文本文字,对应到相应的知识图谱实体,可以帮助我们消去歧义,使得机器更好地理解自然语言,并有助于进一步的自然语言应用,例如自动问答,交互对话等。另一方面,由于表格具有非常好的结构性质,通过抽取表格中的结构化语义信息,可以方便地补充到结构化的知识图谱中,丰富现有知识图谱,使得知识图谱及时补充更多的新知识,从而进一步提高各类基于知识图谱的应用。我们将应用在表格上的实体链接称为“表格链接”。通常情况下,表格链接是在单语环境下进行的,即需要链接的文本文字与知识图谱都是属于同一种语言,例如将英语的表格链接到英语的知识图谱。但是当我们试图让机器去理解一张非英语的表格的时候,我们会发现很多非英语的知识图谱可能不存在,或者是正处在构建中,非常不完备,缺少许多关键的知识条目。因此,本文试图解决一个跨语言环境下的表格实体链接问题,尝试将非英语的表格,直接链接到英语的知识图谱上,而不借助非英语的知识图谱作为中介。跨语言环境下的表格实体链接是一个新问题。结合问题的特殊性和现有方法的缺失,我们提出了一种联合神经网络模型,每次将整张表格作为一个整体进行链接。我们针对表格的特性主要设计了三种特征,分别为指称特征,内容特征和一致性特征,并利用一个预训练的翻译层来打破不同语言之间的不兼容性。同时,为了更好地配合联合模型,我们采用了一般用于排序的损失函数,以区分不同链接正确率的表格,并在预测阶段采用了局部搜索下降的算法来提高效率。本文设计与实现了端到端的多种实验,和不同的基准方法进行了比较,取得了较好的效果,与其他系统相比提高了约13%的准确率。此外,我们还对提出的模型的各个模块进行了多组验证实验,用以证明模型的合理性和有效性。利用本文提出的问题和方法,可以将一张非英语的表格链接到英语的知识图谱,这是融合不同语言不同文化的知识的重要途径。有了这一技术,机器可以更好地理解人类的知识。而通过此技术来对知识图谱进行补全,也能帮助知识图谱融合不同语言和文化的知识,来提高一系列依赖知识图谱的应用。
一种基于表示学习的知识图谱融合算法与系统实现
这是一篇关于知识图谱,实体融合,知识表示学习,机器学习,跨语言,Web的论文, 主要内容为近年来,随着语义网的发展,越来越多的结构数据以知识图谱的形式公开发布,并广泛应用于信息检索、推荐系统、问答系统等领域。知识图谱作为语义数据的重要组成部分,通常包含了大量相互重合的RDF三元组信息,然而只有少量实体之间存在等价链接。所以,如果要同时使用多个相互关联的知识图谱,就必须将实体进行对齐或者合并,其中的关键技术就是实体融合。由于不同知识图谱之间存在着数据的语义不均一性,实体和属性的表示有许多变种和歧义,这给实体融合技术带来了巨大的挑战。实体融合算法主要基于语言学特征、层次结构、属性值域、辅助数据源、机器学习、知识表示学习等。一般地,基于语言学相似度的算法比较难于应用在大规模的数据集当中,机器学习相对灵活,但是依赖于训练数据和优化算法,知识表示学习能够脱离实体的文本信息,根据RDF三元组之间的结构特征对实体进行编码。传统的实体融合工具提供的匹配算法通常非常有限,不能满足用户的多样性需求,且缺少友好的用户界面,对于普通用户来说,使用门槛较高。本文提出了一个基于知识表示学习的双向监督迭代融合算法,将实体和属性映射到了同一个低维的向量空间。与传统方法相比,该算法避免了对知识图谱的糅合操作,并实现了跨语言知识图谱实体融合。同时,还实现了一个基于Web的实体融合工具,提供了良好的交互界面以及详细的操作指南,实现了高效的在线融合计算与数据传输。该工具提供了多种融合算法,包括语言学距离度量、基于正样本的机器学习以及知识表示学习。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://bishedaima.com/lunwen/52656.html