基于数据增强的少样本知识图谱补全方法研究
这是一篇关于知识图谱,知识图谱补全,知识图谱嵌入,少样本学习,深度学习的论文, 主要内容为随着科学技术的快速发展,人工智能已经逐步走到我们的身边,为我们的工作和生活保驾护航,如何帮助机器更好的认识世界、理解世界成为人工智能发展中的重要问题。知识图谱作为认知智能中的一员在自然语言处理中得到了广泛的应用,为搜索引擎、智能问答、推荐系统等下游任务提供数据保障。为了扩大知识图谱的覆盖范围,知识图谱补全任务受到了广泛的关注,基于嵌入和神经网络的知识图谱补全方法可以在这一工作中发挥重要作用。然而,数据集中存在三元组较少的任务关系,当不能提供足够的数据进行训练的时候,通常的补全方法性能不尽人意。目前在少样本知识图谱补全任务上的研究并不多,研究的关注点主要在于如何让少样本任务支持集中的三元组获得更多信息及如何将支持集中的信息转移到查询集中。本文在前人研究的基础上,结合数据增强方法进行了几点改进,使得模型在实验中取得了更好的效果。主要研究内容可分为以下几点:1)基于噪声扩充样本的知识图谱补全方法。结合SMOTE算法的思想,考虑到在实体集合较小时,目标实体与近邻实体之间语义相似性可能较低。通过构建神经网络,将目标实体与近邻实体间的差异聚合成为噪声,再给原实体加噪的方式实现数据增强,最终结合元学习模型MetaR进行知识图谱补全。2)基于相似关系扩充样本的知识图谱补全方法。首先通过比较背景图任务与少样本任务的相似性,将相关的背景图任务信息转移到少样本任务的学习之中。其次通过邻域信息聚合更新实体的表示向量,丰富了其在不同邻居三元组中的语义信息。通过这两部分的共同作用提高了知识图谱补全效果。3)基于高斯分布采样的知识图谱补全方法。验证了少样本关系的分布特征,并寻找背景图中的相似任务辅助构建少样本关系的高斯分布,通过从高斯分布中采样,增加了支持集中的数据量,解决了任务样本不足的问题。通过将原有支持集中的三元组和构造出的新三元组同时加入训练,提高了模型的泛化性,改善了模型的性能,最终结合FAAN模型进行知识图谱补全。
基于知识粒度的分层少样本学习
这是一篇关于分层分类,知识粒化,少样本学习,深度学习的论文, 主要内容为随着互联网技术飞速发展,人们通过对数据挖掘方式的不断改进得到了海量数据。数据的获取、采集、统计效率不断提高,数据的种类呈现出几何倍数的增加,数据的种类由原来的几百几千变为几十万几百万甚至更多。同时数据的特征维度也随着数据挖掘的方法变得越来越庞大,同一数据可以从不同的角度出发获得各种不同的特征。以数据集为例,1998年设计的MNIST数据集有6万个样本,且样本为手写数字。2012年设计的Image Net数据集包含1400多万个样本,拥有2万多个类别,其样本有超过百万的图片有明确的类别标注和图像中物体位置的标注。数据的样本数量和种类更新速度飞快,导致了一系列数据分布不平衡的问题:(1)样本类别分布不均衡,不同类别的数量差距很大,相同类别的不同子类数量差异较大;(2)新类别的不断涌现,使得传统分类方法受到了挑战,且使得样本人工标注的成本大大增加;(3)个别样本稀少,针对该类别难以有效建模,导致样本类别分类困难。面对数据分布不均衡的分类任务,本文充分挖掘了样本之间不同知识粒度的关系和样本之间的类别关系,提出基于知识粒度的分层少样本学习方法,主要内容包括:(1)基于粗粒度粒化的关系网络少样本学习。针对不断涌现新类别的少样本数据,利用类别粗粒度进行相似度匹配,构建基于粗粒度粒化的关系网络少样本学习模型。首先通过粗粒度粒化,构造不同粒度的类别知识结构。然后利用关系模块进行相似度匹配,计算新样本与不同类别粗粒度的得分,最终提出了基于粗粒度粒化的关系网络少样本学习方法。(2)基于top-down机制的停止策略分层分类少样本学习。针对不同知识粒度的样本数据分类时不是所有的粗粒度都具有正确分类的价值,利用不同知识粒度的样本构建知识图谱辅助分类,通过停止策略避免了错误下传的问题,再利用top-down机制自顶向下的对样本分类结果进行修订,最终提出了基于top-down机制的停止策略分层分类少样本学习方法。
基于少样本学习的车辆重识别研究
这是一篇关于车辆重识别,少样本学习,数据集,注意力机制的论文, 主要内容为车辆重识别旨在从监控摄像头采集的图像数据中检索给定查询车辆所有图像,对城市安防、道路监控等智能交通领域具有重要意义。在现实交通场景采集车辆图像时,车辆图像不仅具备时空跨度大、种类繁多等特点,而且容易受光照、拍摄视角等因素的影响,从而导致可用样本较少。同时,车辆具有典型的“类间差异小、类内差异大”的问题,即制造商所生产的相同车型和颜色的不同车辆,其外观差异微小,同一车辆处于不同的交通环境,其外观差异巨大。此外,对不同监控区域拍摄的车辆进行特征学习时,存在视角变化剧烈的问题,这更加加剧了少样本车辆重识别的挑战。针对上述所面临的挑战,本文基于少样本学习的思想对车辆重识别任务进行了研究,主要研究内容如下:(1)考虑到现有车辆重识别数据集时空跨度有限、相同ID车辆样本数量较多和采集成本较高等问题,不利于少样本车辆重识别方法的研究。因此,本文构建了一个小规模数据集Veri-FS。该数据集具备背景信息复杂、光照条件多样和拍摄视角丰富等特征。Veri-FS数据集也充分体现了现实交通环境下车辆时空跨度大和同一ID车辆难以重复采集的特点。(2)针对现实交通场景下车辆样本稀缺和外观几乎相同的问题,本文提出一种具有多视图融合和全局特征增强的少样本重识别网络。其中,局部分支通过视图拼接方法解决车辆样本稀缺时视图分割不精确的问题。通过混合注意力模块为拼接视图中的关键局部区域赋予较大的权重。与此同时,全局分支通过特征增强模块获得全局特征的空间和通道关系,以此增强车辆全局特征的表达能力。该网络不但获得了更加丰富和完整的车辆特征,而且使得网络在少样本情形下依旧可以保持较好的泛化能力。(3)为了解决视角拼接带来的网络复杂性和训练成本过高的问题,本文在数据增强的基础上加入了参数优化,提出了一种具有全局特征优化和局部特征增强的双分支网络(Dual-Branch Network,DB-Net)。其中,DB-Net中的全局分支通过基于数据增强的特征优化模块以进一步优化全局特征,该模块使用深层卷积和空间通道调制来挖掘全局语义信息。局部分支通过基于参数优化的特征筛选模块选择部件最相关的特征,并通过注意力模块自适应地为显著性局部区域分配较大的权重。DB-Net不但可以获得具备较好语义性的全局特征,而且可以在少样本情况下自适应的凸显显著性局部区域。相较于基于深度学习的方法,降低了网络对样本的依赖。
基于数据增强的少样本知识图谱补全方法研究
这是一篇关于知识图谱,知识图谱补全,知识图谱嵌入,少样本学习,深度学习的论文, 主要内容为随着科学技术的快速发展,人工智能已经逐步走到我们的身边,为我们的工作和生活保驾护航,如何帮助机器更好的认识世界、理解世界成为人工智能发展中的重要问题。知识图谱作为认知智能中的一员在自然语言处理中得到了广泛的应用,为搜索引擎、智能问答、推荐系统等下游任务提供数据保障。为了扩大知识图谱的覆盖范围,知识图谱补全任务受到了广泛的关注,基于嵌入和神经网络的知识图谱补全方法可以在这一工作中发挥重要作用。然而,数据集中存在三元组较少的任务关系,当不能提供足够的数据进行训练的时候,通常的补全方法性能不尽人意。目前在少样本知识图谱补全任务上的研究并不多,研究的关注点主要在于如何让少样本任务支持集中的三元组获得更多信息及如何将支持集中的信息转移到查询集中。本文在前人研究的基础上,结合数据增强方法进行了几点改进,使得模型在实验中取得了更好的效果。主要研究内容可分为以下几点:1)基于噪声扩充样本的知识图谱补全方法。结合SMOTE算法的思想,考虑到在实体集合较小时,目标实体与近邻实体之间语义相似性可能较低。通过构建神经网络,将目标实体与近邻实体间的差异聚合成为噪声,再给原实体加噪的方式实现数据增强,最终结合元学习模型MetaR进行知识图谱补全。2)基于相似关系扩充样本的知识图谱补全方法。首先通过比较背景图任务与少样本任务的相似性,将相关的背景图任务信息转移到少样本任务的学习之中。其次通过邻域信息聚合更新实体的表示向量,丰富了其在不同邻居三元组中的语义信息。通过这两部分的共同作用提高了知识图谱补全效果。3)基于高斯分布采样的知识图谱补全方法。验证了少样本关系的分布特征,并寻找背景图中的相似任务辅助构建少样本关系的高斯分布,通过从高斯分布中采样,增加了支持集中的数据量,解决了任务样本不足的问题。通过将原有支持集中的三元组和构造出的新三元组同时加入训练,提高了模型的泛化性,改善了模型的性能,最终结合FAAN模型进行知识图谱补全。
基于多任务的元学习方法在细粒度实体分类中的研究
这是一篇关于细粒度实体分类,元学习,多任务学习,少样本学习的论文, 主要内容为互联网发展至今,每时每刻都会产生海量的非结构化信息数据,需要利用信息抽取技术自动地将其转化为结构化知识数据存储并利用。细粒度实体分类任务是信息抽取研究关键性的基础任务之一,为知识图谱、知识库的构建提供了关键性的技术支撑。细粒度实体分类领域高质量数据资源匮乏,人工标注成本高,数据成为了模型的瓶颈。如何利用已有资源数据,获得更好的模型泛化能力,以及如何在少样本领域,有效地利用新标注的资源,都是亟待解决的问题。本文针对上述挑战,提出了两种方法,一种是针对整合现有数据集的多任务学习方法,另一种则是针对少样本领域的多任务元学习方法。(1)基于多任务的细粒度实体分类的方法。本文设计了基于多任务学习的硬参数共享机制,通过整合多个现有数据集和自主创建的数据集,得到一个通用型模型。此模型借助实体类型的层级信息,构建了实体类型的嵌入式表达;并通过共享特征抽取层,隐式地增加了训练数据,提高了网络的学习能力;在任务层方面,增强了与任务相关的信息,使得共享层的输出能够更加贴合任务本身,进一步提升模型拟合能力。实验结果证明,不论是数据集还是多任务学习的方法,对于细粒度实体分类任务都有较强的提升效果,最佳的模型在原基准模型上有百分之五十的提升。(2)基于多任务的元学习细粒度实体分类的方法。本文设计了一种基于多任务的元学习实验,在新任务上进行训练测试,进而比较模型学会学习的能力。在此基础上本文提出了两种方法:一种是基于梯度下降的元学习算法,它具有较快拟合,且普适性广的特点;另一种是基于原型网络的元学习算法,通过对每个任务中每个实体类型建立原型表征,令模型学习任务之间的先验分布,并通过使用该先验分布的训练结果,使模型在新数据集上取得更出色的成绩。最后通过实验结果表明基于多任务的元学习模型的结果能在基准模型上提升将近百分之四十,进一步证明了上述两种方法的优越性,为少量样本中的细粒度实体分类问题提供了新思路。本文提出的两种方法消除了现有细粒度实体分类数据集之间的鸿沟,也在一定程度上解决了少样本领域中细粒度实体分类的问题。此外,本文提出的方法参加了TAC 2019年知识库构建大赛,并取得了国内第一的成绩,并将方法直接应用到了由中国工程院牵头的中国工程科技知识中心建设项目,为知识库构建发挥了重要的作用。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计驿站 ,原文地址:https://bishedaima.com/lunwen/48706.html