跨语言知识图谱的对齐与融合研究
这是一篇关于知识图谱,嵌入模型,跨语言对齐的论文, 主要内容为知识图谱的概念诞生于2012年。由于知识图谱能够准确地反映真实世界的事实,近年来,知识图谱已被应用于多个领域,并围绕其开展了大量的研究。知识图谱嵌入模型于2013年提出,并在此后的几年内得到了较快的发展。目前,领域内的研究尚处于起步阶段。现有的模型基于较为直观的思想进行构建,合理性尚有待提高,且没有充分地利用嵌入向量的特性。本课题围绕着多语言知识图谱嵌入对齐模型的定义、训练、应用,对跨语言知识图谱的对齐与融合进行了研究。在前人工作的基础上,本文提出了一种多语言知识图谱嵌入对齐模型,并对模型的思想、知识模型、对齐模型、训练过程进行了详细的阐述。模型将多语言知识图谱嵌入到低维实向量空间中,使用语义向量和空间向量来共同刻画一个实体或关系,并借助语义向量和空间向量在不同语言之间构建对齐模型。与知识图谱中离散形式表达的知识相比,向量具有连续性,因此能够借助向量的空间关系建模知识图谱中跨语言实体与关系之间的关联。在模型的基础上,本文提出了一种将其应用于跨语言知识图谱对齐与融合的方法,使得模型能够应用于跨语言知识对齐,借助模型能够对多语言知识图谱进行合理表征。以研究过程中的需求为出发点,针对数据预处理阶段对齐集的自动标注问题,本文提出了一种先基于维基百科构建跨语言实体链接,后基于有向图分解消除不可靠链接的工程性方法。通过与现有的多语言知识图谱嵌入模型进行对比,以及对模型中使用不同的评分函数进行对比,对模型进行了验证和分析。实验结果表明,模型相比当前的多语言知识图谱嵌入模型,能够取得更好的效果。
基于知识图谱补全的人物关系问答系统的研究与实现
这是一篇关于人物关系,知识图谱,链接预测,问答系统,嵌入模型的论文, 主要内容为随着互联网产业和自动问答技术的迅猛发展,产生了越来越多的有待研究和开发的网络信息资源。一方面,基于用户更青睐于简洁、准确的搜索引擎,自然语言领域中传统的关键词匹配的检索方式逐渐向智能问答方向转变。在庞大的中文百科网络信息资源中,人物关系信息也是面向数字化产业的组成部分,为了将互联网资源更好地融入到智能问答系统中,使得生成的产品让用户的体验更佳,本文进行了初步的研究和探索。另一方面,在知识图谱的补全任务中,实质上是对事实中未知链接进行预测的探究,通过推理学习预测出三元组中缺失的部分。本文采用知识表示学习的方法,通过改进现有的模型进行实验对比预测效果,将方法应用到问答系统的查询检索中进行推理补全,设计并实现了一个基于知识图谱补全的人物关系问答系统。主要的工作内容如下:首先为了弥补人物关系资源匮乏问题,构建了一定规模的人物关系知识图谱。数据集以中国历代人物传记资料库(CBDB)、百度百科以及互动百科为数据源,分别以映射式和抽取式两种形式对数据进行收集和处理,整合了资源共61318条中文人物实体,128项人物关系类型,收集共151892条事实。其次针对知识图谱中存在的三元组部分内容缺失问题,本文对问答系统中知识图谱补全任务展开研究,在传统的知识图谱嵌入模型TransH基础上进行改进,提出基于灵活翻译原则的超平面投影模型DTransH模型,并通过链接预测的对比实验,证明改进的模型在实体和关系的向量表示中分布更合理,也表现出其有效性。为了更好地将自然语言转化为机器能够理解和执行的语义表示并应用在人物关系问答系统中,本文使用DTransH方法对知识图谱进行推理补全。最后在补全实验的基础上,设计并实现了人物关系问答系统。在知识图谱人物关系问答系统中,本文初步研究了在该系统中能够处理检索缺失部分信息的问题,并通过实验对比证明知识图谱的推理补全在人物关系问答系统中检索准确性、问答匹配精度有一定的提升。使用现有的技术手段对人物关系数据进行结构化的处理并在问答系统中应用,将存储的人物关系三元组在问答中进行推理预测,对构建的人物关系知识图谱使用图形数据库进行存储,便于人物关系问答系统的答案查询和知识库检索。针对用户所咨询的自然语言问题,本系统利用问题预处理模块进行问句分析,生成问题三元组,通过答案生成模块生成查询语句在图形数据库中进行检索并获取答案,在人物关系问答系统可视化显示。
基于神经网络嵌入模型的中文文本分类方法研究
这是一篇关于中文文本分类,神经网络,嵌入模型,文本表示的论文, 主要内容为文本分类是目前自然语言处理领域最基础的任务之一,在信息检索、推荐系统等领域都有着广泛的研究和应用。传统的文本分类方法通过人工特征工程等方法对文本进行表示,再选择合适的分类器对文本表示进行分类。随着机器学习和深度学习的发展,一些基于神经网络的嵌入模型也在文本分类领域取得了出色的应用效果,尤其在英文文本分类领域。相较于英文文本分类,中文文本分类近几年才得到了广泛的关注,然而,由于其应用场景的差异和中文单词没有天然分隔符的特点,给中文文本分类带来了巨大挑战。因而进一步研究适用于不同场景的中文文本分类的算法具有重要意义和应用价值。基于此,本文开展了基于神经网络嵌入模型的中文文本分类方法研究,主要研究工作如下:(1)实际应用领域如税收领域开具的增值税发票数据具有总体数据量大、每条文本信息量少、特征项模糊等特点,这种海量极短中文文本数据的特点导致传统表示学习算法难以处理向量稀疏和维度灾难的问题。因此,本文提出一种基于词句嵌入模型的中文极短文本分类方法。首先,借助海量语料库使用基于神经网络的词句嵌入模型对文本进行有效表示,进而结合分类器对文本进行分类。最后,在税收编码分类任务的1600万真实数据集上的实验结果表明:该方法在精度上优于对比算法,可有效地提高海量极短文本的分类效果。(2)不同于英文文本,中文单词间没有自然的分隔符,为了降低分词错误造成的影响并充分利用文本自身的信息,本文提出一种针对中文的基于神经网络的动态结合字词嵌入文本分类模型。通过引入字符级和单词级Bi LSTM模型提取不定长的文本特征,在不需任何外部知识的情况下可以更准确、更容易地对中文文本进行表示和分类。最后,在5个公共中文文本数据集和6个基准算法进行了实验对比,在精度与加权平均F1值上的实验结果验证了所提方法的有效性和稳定性。
基于元学习的少样本图像识别方法研究
这是一篇关于深度学习,图像识别,元学习,嵌入模型,融合权重的论文, 主要内容为图像识别是目前热门的研究方向。例如,所使用的人脸识别、车牌识别、行为识别等都需要图像识别技术的支持,因此,对图像识别领域的研究具有重大意义。早期关于图像识别的研究使用机器学习的方法,通过机器学习模型提取图像特征并对图片进行分类。随着大数据时代的来临,深度学习开始兴起。深度学习采用复杂的神经网络,通过多层的网络结构更有效的提取图片特征。但是,即使传统的深度学习方法在图像识别领域取得了不错的成果,不过模型前期的训练需要大量标注的数据,同时训练的模型也只能在所见到过的任务上取得较好的效果,在面对一个新任务时,模型所表现出的泛化性能较差。并且,在对模型所提取出的特征进行识别时,多数方法只关注了模型顶层的语义信息,而忽略了底层的纹理信息。因此,针对以上问题,对基于元学习的少样本图像识别方法展开研究,同时,针对网络输出特征单一和未充分利用模型各阶段输出的样本特征问题,对特征融合方法进行研究。本文的具体工作内容为:(1)针对传统深度学习方法在进行图像识别任务时依赖大量标注数据、模型泛化性能弱的问题,采用了基于分类器度量样本特征的元学习算法。同时,在进行图像识别时,针对网络模型单层输出特征所包含图像信息单一以及对模型各层输出特征利用不充分的问题,提出了一种基于维度的非线性特征融合方法,充分利用了嵌入模型底层所输出的纹理信息和高层所输出的语义信息,进一步提高了元学习的图像识别性能。(2)在对嵌入模型各个阶段输出的特征进行融合时,由于不同阶段的输出特征对分类器影响不同,因此在进行特征融合时各阶段的特征所占融合权重大小也是不同,如何确定融合权值进而达到最优的图像识别精度是一个关键问题。针对该问题,首先采用固定特定阶段特征权值的方法,确定出对分类器性能影响最大的模块特征,并结合元学习快速适应新任务的特点,采用一种改进的粒子群优化算法,对融合权值进行自适应优化,有效提升了元学习的图像识别准确率。(3)为验证所提基于元学习和自适应特征融合权重优化算法的有效性,在多个少样本图像识别数据集上进行应用和验证。将算法在数据集上进行实验,针对所提的融合方法和优化算法进行多个对比实验,进一步验证了所提方法的优越性能。同时,在FC100数据集上,方法在1-shot策略下比原来的基准提升了1.56%,在5-shot上提升了3.07%。在mini Image Net数据集上,所提方法在1-shot策略下的识别精度达到了62.55%,在5-shot上达到了80.57%,均超越了原来的识别基准。
基于知识图谱补全的人物关系问答系统的研究与实现
这是一篇关于人物关系,知识图谱,链接预测,问答系统,嵌入模型的论文, 主要内容为随着互联网产业和自动问答技术的迅猛发展,产生了越来越多的有待研究和开发的网络信息资源。一方面,基于用户更青睐于简洁、准确的搜索引擎,自然语言领域中传统的关键词匹配的检索方式逐渐向智能问答方向转变。在庞大的中文百科网络信息资源中,人物关系信息也是面向数字化产业的组成部分,为了将互联网资源更好地融入到智能问答系统中,使得生成的产品让用户的体验更佳,本文进行了初步的研究和探索。另一方面,在知识图谱的补全任务中,实质上是对事实中未知链接进行预测的探究,通过推理学习预测出三元组中缺失的部分。本文采用知识表示学习的方法,通过改进现有的模型进行实验对比预测效果,将方法应用到问答系统的查询检索中进行推理补全,设计并实现了一个基于知识图谱补全的人物关系问答系统。主要的工作内容如下:首先为了弥补人物关系资源匮乏问题,构建了一定规模的人物关系知识图谱。数据集以中国历代人物传记资料库(CBDB)、百度百科以及互动百科为数据源,分别以映射式和抽取式两种形式对数据进行收集和处理,整合了资源共61318条中文人物实体,128项人物关系类型,收集共151892条事实。其次针对知识图谱中存在的三元组部分内容缺失问题,本文对问答系统中知识图谱补全任务展开研究,在传统的知识图谱嵌入模型TransH基础上进行改进,提出基于灵活翻译原则的超平面投影模型DTransH模型,并通过链接预测的对比实验,证明改进的模型在实体和关系的向量表示中分布更合理,也表现出其有效性。为了更好地将自然语言转化为机器能够理解和执行的语义表示并应用在人物关系问答系统中,本文使用DTransH方法对知识图谱进行推理补全。最后在补全实验的基础上,设计并实现了人物关系问答系统。在知识图谱人物关系问答系统中,本文初步研究了在该系统中能够处理检索缺失部分信息的问题,并通过实验对比证明知识图谱的推理补全在人物关系问答系统中检索准确性、问答匹配精度有一定的提升。使用现有的技术手段对人物关系数据进行结构化的处理并在问答系统中应用,将存储的人物关系三元组在问答中进行推理预测,对构建的人物关系知识图谱使用图形数据库进行存储,便于人物关系问答系统的答案查询和知识库检索。针对用户所咨询的自然语言问题,本系统利用问题预处理模块进行问句分析,生成问题三元组,通过答案生成模块生成查询语句在图形数据库中进行检索并获取答案,在人物关系问答系统可视化显示。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计货栈 ,原文地址:https://bishedaima.com/lunwen/54714.html