异质图网络算法研究及应用
这是一篇关于异质图,异质图神经网络,专利知识图谱,位置编码,长尾问题的论文, 主要内容为异质图适合描述具有不同类型实体和关系的现实世界数据,有效扩展了网络的概念。异质图神经网络作为一种新型技术,用来捕获异质图中的异质信息,能够有效地将消息传递机制和异质图中复杂的语义结合起来,在异质图挖掘领域取得巨大成功。然而,异质图本身存在一些通用问题,例如:无初始特征问题和节点度数的长尾问题等。知识图谱是异质图的一种特殊情况,基于两者提出的图建模和图表示方法却鲜有交叉,这是值得关注的方向。专利知识图谱能够建模大量专利间的交互,利用异质图技术分析专利知识图谱也面临着专利特征缺失,长尾等通用问题。针对上述挑战,本文对异质图神经网络的关键技术开展深入研究。首先,研究异质图的两个关键的通用问题,即特征缺失和长尾问题,分别设计相应的异质图神经网络进行解决。其次,研究了融入异质图语义的专利知识图谱构建方法。最后,进一步探究了异质图神经网络在专利知识图谱中的应用。综上,本文的主要研究内容及创新点如下所示:(1)针对如何为无初始特征或难以生成特征的异质图生成高质量的特征问题,提出异质图神经网络的位置编码(Position Encoding for Heterogeneous Graph Neural Network,PE)。具体来说,使用图嵌入获得节点拓扑嵌入,以节点间的拓扑关系为指导,计算子图中节点之间的位置,并将位置信息编码为特征作为初始特征或附加特征用于后续的节点聚合。本研究是一个异质图通用框架,易于与现有的优秀异质聚合模型相结合。在三个基准数据集上进行的大量实验表明提出的异质图神经网络框架的优越性。(2)针对异质图中节点度数的长尾问题,设计了长尾节点信息补全的异质图神经网络(Heterogeneous Graph Neural Network with Tail Node Completion,HGNNTC)。具体来说,执行节点内容转换将异质节点投影到同一特征空间,然后学习目标头节点的丰富异质邻域生成全局关系,对头尾节点进行对比生成额外信息用于尾节点聚合。本研究也是一个异质图的通用框架,易于与任意的异质聚合模型相结合。在两个基准数据集上的广泛实验表明提出的异质图神经网络模型在尾节点分类任务的有效性。(3)针对专利数据的海量属性及孤岛特性,提出融入异质语义的专利知识图谱构建方案。首先对从专利数据库中采集的专利数据进行多步骤清洗。其次引入异质图语义规则,以专利为中心设计了专利知识图谱的本体。基于定义好的本体,将清洗好的数据映射成实体和关系,存储在图数据库中,实现专利知识图谱的构建。最后基于构建的专利知识图谱抽取专利异质图,使用提出的异质图神经网络对专利知识图谱中的专利执行高效率高准确率的分类应用。
面向药物重定位的隐含知识发现研究
这是一篇关于隐含知识发现,药物重定位,关系抽取,异质图神经网络的论文, 主要内容为浩如烟海的生物医学文献中储藏着大量非结构化的信息,是生物医学信息挖掘的重要来源,对于隐含知识发现研究而言更是宝贵的待开发资源。一方面,使用自然语言处理技术和深度学习方法自动化进行药物重定位,能够极大地降低药物研发的经济成本和时间成本;另一方面,药物重定位系统作为药物研究人员研发的参考依据,其推断结果需要具备充分的准确性和可解释性。如何高效而准确地将生物医学文本中的信息结构化是生物医学文本挖掘的一个挑战。本文旨在利用自然语言处理技术和深度学习方法,研究如何面向药物重定位,在医学文献中发现隐含知识。首先,本文提出了一种新的关系抽取方法。为了获取具有高质量标注的生物医学关系抽取数据集,需要具有领域知识的专家进行手工标注,高人力成本使得获取大量的高质量数据集的难度很大。针对关系抽取任务,本文提出了基于预训练语言模型和多任务学习的关系抽取方法,使用具有领域知识的预训练模型,提升了模型对生物医学文本的表示能力;另外多任务学习策略可以在不需要额外标注数据集的前提下隐式地扩大训练数据,从而提升模型准确性。本文在公开数据集上进行实验,实验结果证实了这两种方法的有效性。其次,本文提出了一种基于异质神经网络的隐含知识发现方法。药物重定位的任务可以将其理解为一个为药物推荐疾病或为疾病推荐药物的推荐系统。本文引入了异质图神经网络模型,使用不同类型的节点构建成一张关系网络图,学习节点的表示特征。引入了双级注意力机制进行节点和路径的聚合,并赋予模型可解释性。实验结果表明本文提出的方法在公开数据集上超越了此前最优结果,证实了异质网络在药物重定位领域的应用价值。最后,本文提出了一种基于节点交互的隐含知识发现方法。元路径模型在网络稀疏或有噪音数据时会不可靠,另一方面,节点及其邻域信息聚合网络表示方法没有捕获路径的语义信息。对此本文采用了基于节点交互的方法增强模型的语义感知能力。实验结果证明此方法能够明显提升模型的性能,取得了当前最优结果。此外,本文对某一推理实例进行了可视化的解释性分析,并提供了由模型推断得到的阿尔兹海默病的潜在药物,援引了相关文献佐证其有效性。
基于自监督表示学习的异质图神经网络算法研究
这是一篇关于自监督学习,表示学习,异质图神经网络,自注意力机制,特征预训练的论文, 主要内容为随着科技的飞速发展,大数据时代已经到来,生活中的各类数据呈现爆炸式增长的趋势,其中许多数据都可以建模成图结构数据。其中,很多图数据是包含多种节点类型和边类型的。异质图数据与同质图不同的是,异质图因具有多种类型的节点和边而包含了丰富的语义信息,可以直观高效地建模现实场景。异质图如今在引文网络、生物医药、推荐系统等多种领域中均有应用,对异质图进行分析已是数据挖掘领域的重要方向,对其进行研究具有重要的意义。异质图神经网络作为一个较为新兴的研究领域,将深度学习方法应用在异质图上,已经成为机器学习与数据挖掘研究中的热点问题之一。现有的异质图神经网络方法利用多种异质图上的特定结构,来捕获其结构和语义信息,如元路径、网络模式等。通过消息传递机制保留以上信息,最终生成适合于不同下游任务的节点向量表示。但这些方法主要关注结构和语义信息,缺乏对特征表示的关注。随着表示学习的技术在各领域的广泛应用,也有一些方法尝试对节点的特征进行表示学习,并有一定的效果。这其中有相当一部分方法通过构建负样本集,使用自监督对比学习的方式摆脱对标签信息的依赖,学习将输入特征空间映射到低维特征空间的函数,同时需保留结构和语义信息。本文提出了一种不依赖负样本集,对异质图以自监督的方式进行表示学习的模型。该模型使用了改进的自编码器,用于预训练节点特征,其中编码器和解码器利用Transformer架构实现。模型通过对目标节点在不同类型元路径下进行编码,来提取目标节点的低维向量表示。在多个基准异质图数据集上的实验表明,所提出的基于自监督的异质图表示学习模型,能够有效地提升多种经典图神经网络和异质图神经网络的结果。之后,本文还提出了一种改进的图注意力网络模型。该模型通过注意力机制来融合表示学习所得到的多种元路径下特征嵌入的结果,通过残差机制和L2归一化策略来缓解过平滑问题。所提出的自监督表示学习模型和改进的图注意力网络共同组成了基于自监督表示学习的异质图神经网络算法模型,在多个基准异质图数据集上的实验表明,该模型在全监督和半监督场景下均取得较好的结果。本文的主要贡献总结如下:(1)本文针对异质图提出了一种自监督表示学习模型,并通过实验验证了该模型的有效性;(2)本文提出了一种改进的图注意力网络,结合自监督表示学习模型,共同构成基于自监督表示学习的异质图神经网络算法模型,该模型在多个基准异质图数据集上取得了较好的效果;(3)本文使用统一的数据划分标准,对已有的相关算法进行大规模实验,从而对已有算法在三个基准数据集上进行了公平统一的比较。除此之外,本文还在蛋白质-蛋白质相互关系(PPI)数据集上进行了应用研究,验证了所提出的模型在不同类型数据下的性能。
异质图神经网络研究及其在推荐系统中的应用
这是一篇关于推荐系统,异质图神经网络,社交推荐,注意力机制的论文, 主要内容为在国内外众多公司的主流应用中,无不出现推荐系统的身影。推荐系统不但可以促进用户决策、改善用户体验,而且还可以高用户留存率来升商业利润。在推荐系统领域,绝大多数数据都具有(异质)图结构,过去几年异质图神经网络在推荐系统领域大放异彩,将异质图神经网络应用于推荐系统是非常具有实际意义和研究价值的。论文以异质图神经网络在推荐系统中的应用为研究对象,出了两个基于异质图神经网络的社交推荐模型CFGRec和Consist-CFGRec,并以此为基础,设计和实现一个社交美食推荐系统。针对现有研究通常直接对用户和项目节点的邻居进行多层聚合,而忽略了协同过滤中相似节点对目标节点表示学习的增益作用,出一个适用于社交推荐的协同过滤增益的异质图神经网络模型CFGRec。该模型根据协同过滤思想,对用户(项目)之间进行相似性构图,并通过调整相似度阈值来控制图中边的数量;通过注意力机制将用户(项目)分别在相似空间、社交空间以及用户项目交互空间中的表示进行动态自适应融合。针对现有研究通常忽略社交推荐中常见的社交不一致,以及用户项目交互二部图的稀疏性问题,出一个适用于缓解社交不一致和数据稀疏性问题的异质图神经网络模型Consist-CFGRec。该模型在社交关系图用户节点之间的消息传递中加入多头自注意力机制来捕获一致性朋友节点;在用户项目交互二部图用户节点和项目节点的消息传递中加入多头自注意力机制来捕获不同项目对目标用户的吸引力差异以及不同用户对目标项目的偏好差异。通过在三个具有代表性的公开社交推荐数据集Film Trust、Ciao和Epinions上的实验表明,与现有的基线模型相比CFGRec在RMSE和MAE上分别有2.56%、2.55%、1.25%、1.51%、1.24%和1.38%的推荐性能升。Consist-CFGRec则分别有2.85%、2.98%、1.84%、2.20%、1.44%和1.91%的推荐性能升。论文中最后实现的社交美食推荐系统完整地实现了工程化社交推荐系统中的基本功能,用户可以查看推荐的美食、与朋友建立社交关系和在美食朋友圈分享日常等,管理员可以在系统管理后台管理模型、用户、美食和评分等。为理解论文中出的推荐模型起到了帮助作用。
基于解耦表示的图神经网络算法研究与实现
这是一篇关于解耦表示学习,图神经网络,异质图神经网络,新闻推荐系统,链接预测的论文, 主要内容为现实生活场景中,存在着大量由实体(对象节点)及实体间互联关系(边)所形成的图结构数据。研究者从图结构数据中抽象出经典的机器学习任务(节点分类、链路预测、聚类等),解决了许多更复杂的实际问题(目标检测,推荐系统,社交分析等),因此图数据分析成为了数据挖掘与机器学习领域的研究热点。近年来,图神经网络(Graph Neural Networks,简称GNNs)作为一种强大的建模图数据的深度表示学习方法,迅速激发了各领域研究者的研究兴趣。GNNs通过图节点之间的消息传递来捕获图的依赖关系,能够很好地融合数据中结构和属性信息,其丰富的变体也在各种学习任务上不断突破更高的性能。更普遍地,许多复杂系统往往由类型各异的组件和丰富多样的关系构成,异质图(Heterogeneous Graphs,简称HGs)可以对其进行更完整自然地刻画,避免造成信息损失。然而,传统的GNNs已不足以区分和表达对象及其关系的异质性,相应的异质图神经网络(Heterogeneous Graph Neural Networks,简称 HGNNs)应运而生,推动着图数据挖掘研究进入发展新纪元。纵使GNNs(包括同质图和异质图)已经取得了很多成果,它们依然很少进一步探究图数据中错综复杂的交互背后潜在的多方面因素。一般来说,图结构数据中大量交互是难以获得确定的属性标签的,而这些交互背后往往存在着隐式的多方面因素。如果执行图神经网络的信息传递过程中不对这些多方面因素进行识别和解耦,学得高度纠缠的单一表示,则会大大降低模型鲁棒性和可解释性。针对该问题,本文提出了基于解耦表示的图神经网络算法,分析了不同实际场景下如何在图神经网络中执行解耦表示学习,包括两个研究工作:本文首先研究了新闻推荐系统下的图解耦神经网络,提出了能够无监督地解耦用户偏好的新闻推荐算法GNUD(Graph Neural News Recommendation with Unsupervised Preference Disentanglement);其次研究了更为普遍的文本相关的异质图数据场景下的解耦方法,提出了一种用于链接预测的主题感知异质图神经网络 THGNN(Topic-aware Heterogeneous Graph Neural Network)。在新闻推荐系统中,传统的新闻推荐方法通常都是基于用户历史交互以及新闻内容来进行推荐预测,忽略了交互的高阶结构关系。此外,已有工作并没有识别并解耦用户点击不同新闻时多样的兴趣偏好。因此,本项工作中提出了一个无监督偏好解耦的新闻推荐系统GNUD,该模型在利用高阶结构关系传递信息的同时对其识别并解耦,有区分性地聚合邻居属性。实验结果表明GNUD在真实新闻推荐数据集上与其他先进方法相比,有效地提高了性能。放眼更普通的异质图场景,已有的HGNNs虽然能够捕获丰富的语义信息,一定程度上揭示了节点的不同方面,但它们仍然停留在一个仅能探索结构特性的粗粒度级别。实际上,异质图存在大量携带非结构化文本的节点,承载着由潜在的多方面主题感知因素引起的细粒度语义信息。这种细粒度语义从一个更根本的角度反映了不同类型节点互联以至于形成异质结构的原因。现有方法却没有对此进一步探究。因此,本项工作中提出了一个主题感知的异质图神经网络THGNN,该模型相比已有方法能够层次性地挖掘主题感知语义,学习异质图中用于链接预测的多方面主题感知解耦表示。在真实异质图数据上的大量实验结果表明,THGNN不仅能在链接预测任务上表现优于已有先进方法,还展现了所学多方面主题感知解耦表示的潜在可解释性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工厂 ,原文地址:https://bishedaima.com/lunwen/56318.html