基于语义分析的知识图谱表示学习技术研究
这是一篇关于知识图谱,表示学习,语义分析,语义传播,数据增强,元信息的论文, 主要内容为知识图谱是一种崭新的知识存储和管理方式,有别于传统数据库,其异质图结构适用场景更广泛,且更便于人类直观理解和认知,目前已经被广泛用于自然语言处理、智能问答、推荐系统等多项任务中,对推动人工智能和大数据技术的发展具有重要意义。通过将知识图谱的实体和关系用向量数值化表示,能够有效提高图谱内语义计算的效率,更好地挖掘知识图谱的潜能,并支撑下游应用。然而,已有的知识图谱表示学习模型对实体和关系两个核心元素的语义信息利用还不够充分,模型对图谱中深层次的隐含语义学习能力不足,导致模型难以获得最优的性能。本文针对上述问题,从实体和关系的语义增强角度出发,研究了基于语义传播、数据增强等技术的知识图谱表示学习模型与方法。本文主要完成了以下工作:1.针对表示学习模型简单组合文本信息向量,导致实体文本语义信息利用不够充分的问题,提出了基于语义传播的文本增强知识图谱表示学习模型。已有部分知识图谱中,除三元组信息外,还存在包含实体相关丰富知识的文本描述信息,可用于补充实体语义。已有研究大多将三元组和实体文本的向量表示进行简单组合,难以充分融合两者语义信息,导致模型表示性能提升不够明显。针对这一问题,本文提出了一个基于语义传播的文本增强知识图谱表示学习模型。首先,从实体文本中提取命名实体,并将其与相应实体连接,获得文本增强知识图谱;然后,使用图卷积网络在增强知识图谱的节点之间传播语义信息,以深度融合文本语义和三元组的语义信息;最后,在FB15K、WN18、FB15K-237和WN18RR四个基准数据集上进行了链接预测实验,与基线Pretrain模型相比,本文模型在MRR、HITS@10两个指标上分别最高提升5.1%、2.0%,表明本文模型的有效性和先进性。2.针对知识图谱数据长尾分布产生的少样本关系,导致表示学习模型对少样本关系训练困难,准确率不高问题,提出了基于变分自编码器数据增强的少样本表示学习模型。知识图谱中的关系往往服从长尾分布,即大多数关系只有很少一部分相关三元组,也被称为“少样本关系”,此类关系在表示学习过程中难以捕获全部语义,从而限制了模型的最终效果。针对这一问题,本文提出了一个基于变分自编码器数据增强的少样本表示学习模型。首先,通过聚合实体上下文信息获得三元组中实体对的表示;然后,利用变分自编码器提取实体对表示的潜在特征,并解码生成与原样本高度相似的新样本,用以辅助模型训练。最后,在NELL和Wiki两个少样本基准数据集上进行了链接预测实验,与FAAN模型相比,本文模型在MRR指标上分别提升了1.7%和6.7%,在HITS@1指标上分别提升了5.0%和8.5%,验证了本文模型在少样本场景下的有效性和先进性。3.针对表示学习模型忽略实体上下文语义和关系中蕴含的规则语义,导致表示学习模型缺少建模实体本体和规则能力问题,提出了基于元信息和逻辑规则增强的知识图谱表示学习模型。知识图谱中的实体通常不是孤立存在的,其周围往往存在丰富的上下文信息,且同一类实体的上下文相似,反之存在较大差异,这一特点可用于区分实体类别。同时,知识图谱中还普遍存在关系相同、实体不同的相似子结构,可被认为一种规则,这一特性也可用于推理未知三元组。然而,已有表示学习模型并未充分利用这些特性,对于此,本文提出了一个基于元信息和逻辑规则增强的知识图谱表示学习模型。首先,根据实体周围结构建模实体元信息,实现实体本体类型知识的学习;然后,根据图谱挖掘出的逻辑规则推理高置信度的三元组,以扩展训练集;最后,将元信息、逻辑规则和三元组进行融合训练,以获得实体及关系的表示。在标准数据集FB15K、WN18、FB15K-237和WN18RR及其稀疏数据集上的实验结果表明,本文模型在多项评价指标上均优于已有基准模型,如在FB15K-237的MRR和HITS@1指标上分别取得了3.6%、6.2%的提升;在稀疏数据集上的性能提升尤为明显,如在稀疏数据集FB15K-Sparse的MRR和HITS@1指标上分别取得了15.4%、28.1%的提升。
基于元信息的志愿服务推荐系统研究与实现
这是一篇关于志愿服务,元信息,异质信息图谱,向量嵌入,混合推荐的论文, 主要内容为近十余年间,我国志愿服务领域持续处于高速发展阶段:截至2019年,中国志愿服务信息系统中已经积累了约1.2亿名志愿者、73万个志愿团体以及232万个志愿项目的海量数据。如此的数据规模充分表明志愿服务已经逐步发展成为我国社会服务领域的重要组成部分。然而,立足于移动互联网飞速发展的背景,与其他同样拥有海量服务对象的领域相比,志愿服务领域并没有受到足够的关注:就推荐应用而言,各业的服务提供商和研究者们已经在电商、视频、音乐等领域具备较为成熟的研究基础,并开发出相应的推荐系统以改善用户体验;相反地,到目前为止,手动筛选仍然是当下志愿者挑选志愿项目的主要方式,多数志愿服务网站仅能提供随机项目或热门项目推荐,并且在所推荐的项目列表中,甚至还会存在已经停止招募的无效推荐。面对志愿服务信息化、智能化发展相对滞后的现状,如何处理并应用志愿服务海量数据,更有效地反哺助力志愿服务领域发展,成为一项亟待解决的问题。本文聚焦于推荐应用,通过对志愿服务数据源开展多角度分析,归纳志愿服务领域于推荐系统研究的独特性及随之产生的问题;并结合近年来广受关注的知识图谱概念,对应地从算法模型与系统设计的角度提出解决方案,为志愿者提供个性化推荐服务。对志愿服务信息化和智慧城市建设具有一定的参考价值。论文的主要工作包括以下内容:一、对中国志愿服务数据源进行分析工作,分别从整体层面,志愿者角度,志愿项目角度,以及二者间交互关系角度四个方面总结该领域特征,存在的问题及可能存在的解决方案,为后续研究讨论奠定理论基础;同时,设计逐日模拟的测试方案,提出更具现实意义的“成功率”评价指标,并依照测试方案抽取实验数据集,为后续研究讨论奠定数据基础。二、基于志愿服务数据的多方位分析,提出基于异质元信息用户嵌入模型的推荐方法CMeta-User2vec,引入志愿者属性元信息构建多元异质信息图谱,结合Word2Vec模型将志愿者嵌入到低维向量空间,以应对志愿服务领域存在的数据稀疏性和冷启动问题。在抽取的实验数据集上以逐日模拟的方式进行测试,与近些年提出的同样可以应对类似问题的推荐算法如 CFKG、HI2Rec、Product2vec、metapath2vec等进行对比,从成功率、召回率、覆盖率等角度验证所提方法的有效性:在实验数据集上,所提方法的平均推荐成功率高达59.96%。最后,还通过补充实验验证了所提向量嵌入模型自身所具备的更广泛的应用普适性:如用于深度学习模型的输入向量预训练等。三、结合混合推荐系统于实际项目生产中的广泛应用,进一步丰富异质信息图谱,引入项目属性元信息构建层次异质信息图谱并在此基础上提出MulGRS混合推荐系统:对单体的传统协同过滤算法,PersonalRank随机游走算法等推荐模型进行适配性改进,以根据志愿者的项目参与状态划分不同情境构建相应的混合推荐模型,进而生成推荐。在这样的设计中,通过多算法的相互配合弥补单一模型的不足,以应对冷启动问题并提升整体的推荐成功率;底层的多层次网络存储结构帮助缓解数据稀疏性问题的同时,图结构相关的过滤操作也有助于提升各个推荐模型的执行效率。在同样的实验数据集上与传统Switching Hybrid、Weighted Hybrid、TransE-CF 等混合推荐系统进行对比,验证所提方法的有效性:在实验数据集上,所提方法的平均推荐成功率高达71.04%。最后,对比了所提两种方法的优劣利弊:不存在适配所有应用场景的方法,总是需要结合具体需求选择合适的推荐模型。四、基于所提出的两种方案,设计并实现志愿服务可视化推荐系统,为志愿者提供项目的多级推荐以及相关信息的个性化展示和检索服务。在多级推荐服务中,MulGRS为志愿者提供实时推荐,CMeta-User2vec为志愿者提供离线推荐,通过对服务器负载的监控进行推荐算法的切换,保证推荐服务的可用性。同时推荐结果将以“志愿者—中间实体—推荐项目”的最短推荐路径可视化形式呈现,提示志愿者推荐理由,增强推荐服务的可解释性。
基于语义分析的知识图谱表示学习技术研究
这是一篇关于知识图谱,表示学习,语义分析,语义传播,数据增强,元信息的论文, 主要内容为知识图谱是一种崭新的知识存储和管理方式,有别于传统数据库,其异质图结构适用场景更广泛,且更便于人类直观理解和认知,目前已经被广泛用于自然语言处理、智能问答、推荐系统等多项任务中,对推动人工智能和大数据技术的发展具有重要意义。通过将知识图谱的实体和关系用向量数值化表示,能够有效提高图谱内语义计算的效率,更好地挖掘知识图谱的潜能,并支撑下游应用。然而,已有的知识图谱表示学习模型对实体和关系两个核心元素的语义信息利用还不够充分,模型对图谱中深层次的隐含语义学习能力不足,导致模型难以获得最优的性能。本文针对上述问题,从实体和关系的语义增强角度出发,研究了基于语义传播、数据增强等技术的知识图谱表示学习模型与方法。本文主要完成了以下工作:1.针对表示学习模型简单组合文本信息向量,导致实体文本语义信息利用不够充分的问题,提出了基于语义传播的文本增强知识图谱表示学习模型。已有部分知识图谱中,除三元组信息外,还存在包含实体相关丰富知识的文本描述信息,可用于补充实体语义。已有研究大多将三元组和实体文本的向量表示进行简单组合,难以充分融合两者语义信息,导致模型表示性能提升不够明显。针对这一问题,本文提出了一个基于语义传播的文本增强知识图谱表示学习模型。首先,从实体文本中提取命名实体,并将其与相应实体连接,获得文本增强知识图谱;然后,使用图卷积网络在增强知识图谱的节点之间传播语义信息,以深度融合文本语义和三元组的语义信息;最后,在FB15K、WN18、FB15K-237和WN18RR四个基准数据集上进行了链接预测实验,与基线Pretrain模型相比,本文模型在MRR、HITS@10两个指标上分别最高提升5.1%、2.0%,表明本文模型的有效性和先进性。2.针对知识图谱数据长尾分布产生的少样本关系,导致表示学习模型对少样本关系训练困难,准确率不高问题,提出了基于变分自编码器数据增强的少样本表示学习模型。知识图谱中的关系往往服从长尾分布,即大多数关系只有很少一部分相关三元组,也被称为“少样本关系”,此类关系在表示学习过程中难以捕获全部语义,从而限制了模型的最终效果。针对这一问题,本文提出了一个基于变分自编码器数据增强的少样本表示学习模型。首先,通过聚合实体上下文信息获得三元组中实体对的表示;然后,利用变分自编码器提取实体对表示的潜在特征,并解码生成与原样本高度相似的新样本,用以辅助模型训练。最后,在NELL和Wiki两个少样本基准数据集上进行了链接预测实验,与FAAN模型相比,本文模型在MRR指标上分别提升了1.7%和6.7%,在HITS@1指标上分别提升了5.0%和8.5%,验证了本文模型在少样本场景下的有效性和先进性。3.针对表示学习模型忽略实体上下文语义和关系中蕴含的规则语义,导致表示学习模型缺少建模实体本体和规则能力问题,提出了基于元信息和逻辑规则增强的知识图谱表示学习模型。知识图谱中的实体通常不是孤立存在的,其周围往往存在丰富的上下文信息,且同一类实体的上下文相似,反之存在较大差异,这一特点可用于区分实体类别。同时,知识图谱中还普遍存在关系相同、实体不同的相似子结构,可被认为一种规则,这一特性也可用于推理未知三元组。然而,已有表示学习模型并未充分利用这些特性,对于此,本文提出了一个基于元信息和逻辑规则增强的知识图谱表示学习模型。首先,根据实体周围结构建模实体元信息,实现实体本体类型知识的学习;然后,根据图谱挖掘出的逻辑规则推理高置信度的三元组,以扩展训练集;最后,将元信息、逻辑规则和三元组进行融合训练,以获得实体及关系的表示。在标准数据集FB15K、WN18、FB15K-237和WN18RR及其稀疏数据集上的实验结果表明,本文模型在多项评价指标上均优于已有基准模型,如在FB15K-237的MRR和HITS@1指标上分别取得了3.6%、6.2%的提升;在稀疏数据集上的性能提升尤为明显,如在稀疏数据集FB15K-Sparse的MRR和HITS@1指标上分别取得了15.4%、28.1%的提升。
基于元信息的志愿服务推荐系统研究与实现
这是一篇关于志愿服务,元信息,异质信息图谱,向量嵌入,混合推荐的论文, 主要内容为近十余年间,我国志愿服务领域持续处于高速发展阶段:截至2019年,中国志愿服务信息系统中已经积累了约1.2亿名志愿者、73万个志愿团体以及232万个志愿项目的海量数据。如此的数据规模充分表明志愿服务已经逐步发展成为我国社会服务领域的重要组成部分。然而,立足于移动互联网飞速发展的背景,与其他同样拥有海量服务对象的领域相比,志愿服务领域并没有受到足够的关注:就推荐应用而言,各业的服务提供商和研究者们已经在电商、视频、音乐等领域具备较为成熟的研究基础,并开发出相应的推荐系统以改善用户体验;相反地,到目前为止,手动筛选仍然是当下志愿者挑选志愿项目的主要方式,多数志愿服务网站仅能提供随机项目或热门项目推荐,并且在所推荐的项目列表中,甚至还会存在已经停止招募的无效推荐。面对志愿服务信息化、智能化发展相对滞后的现状,如何处理并应用志愿服务海量数据,更有效地反哺助力志愿服务领域发展,成为一项亟待解决的问题。本文聚焦于推荐应用,通过对志愿服务数据源开展多角度分析,归纳志愿服务领域于推荐系统研究的独特性及随之产生的问题;并结合近年来广受关注的知识图谱概念,对应地从算法模型与系统设计的角度提出解决方案,为志愿者提供个性化推荐服务。对志愿服务信息化和智慧城市建设具有一定的参考价值。论文的主要工作包括以下内容:一、对中国志愿服务数据源进行分析工作,分别从整体层面,志愿者角度,志愿项目角度,以及二者间交互关系角度四个方面总结该领域特征,存在的问题及可能存在的解决方案,为后续研究讨论奠定理论基础;同时,设计逐日模拟的测试方案,提出更具现实意义的“成功率”评价指标,并依照测试方案抽取实验数据集,为后续研究讨论奠定数据基础。二、基于志愿服务数据的多方位分析,提出基于异质元信息用户嵌入模型的推荐方法CMeta-User2vec,引入志愿者属性元信息构建多元异质信息图谱,结合Word2Vec模型将志愿者嵌入到低维向量空间,以应对志愿服务领域存在的数据稀疏性和冷启动问题。在抽取的实验数据集上以逐日模拟的方式进行测试,与近些年提出的同样可以应对类似问题的推荐算法如 CFKG、HI2Rec、Product2vec、metapath2vec等进行对比,从成功率、召回率、覆盖率等角度验证所提方法的有效性:在实验数据集上,所提方法的平均推荐成功率高达59.96%。最后,还通过补充实验验证了所提向量嵌入模型自身所具备的更广泛的应用普适性:如用于深度学习模型的输入向量预训练等。三、结合混合推荐系统于实际项目生产中的广泛应用,进一步丰富异质信息图谱,引入项目属性元信息构建层次异质信息图谱并在此基础上提出MulGRS混合推荐系统:对单体的传统协同过滤算法,PersonalRank随机游走算法等推荐模型进行适配性改进,以根据志愿者的项目参与状态划分不同情境构建相应的混合推荐模型,进而生成推荐。在这样的设计中,通过多算法的相互配合弥补单一模型的不足,以应对冷启动问题并提升整体的推荐成功率;底层的多层次网络存储结构帮助缓解数据稀疏性问题的同时,图结构相关的过滤操作也有助于提升各个推荐模型的执行效率。在同样的实验数据集上与传统Switching Hybrid、Weighted Hybrid、TransE-CF 等混合推荐系统进行对比,验证所提方法的有效性:在实验数据集上,所提方法的平均推荐成功率高达71.04%。最后,对比了所提两种方法的优劣利弊:不存在适配所有应用场景的方法,总是需要结合具体需求选择合适的推荐模型。四、基于所提出的两种方案,设计并实现志愿服务可视化推荐系统,为志愿者提供项目的多级推荐以及相关信息的个性化展示和检索服务。在多级推荐服务中,MulGRS为志愿者提供实时推荐,CMeta-User2vec为志愿者提供离线推荐,通过对服务器负载的监控进行推荐算法的切换,保证推荐服务的可用性。同时推荐结果将以“志愿者—中间实体—推荐项目”的最短推荐路径可视化形式呈现,提示志愿者推荐理由,增强推荐服务的可解释性。
基于元信息的志愿服务推荐系统研究与实现
这是一篇关于志愿服务,元信息,异质信息图谱,向量嵌入,混合推荐的论文, 主要内容为近十余年间,我国志愿服务领域持续处于高速发展阶段:截至2019年,中国志愿服务信息系统中已经积累了约1.2亿名志愿者、73万个志愿团体以及232万个志愿项目的海量数据。如此的数据规模充分表明志愿服务已经逐步发展成为我国社会服务领域的重要组成部分。然而,立足于移动互联网飞速发展的背景,与其他同样拥有海量服务对象的领域相比,志愿服务领域并没有受到足够的关注:就推荐应用而言,各业的服务提供商和研究者们已经在电商、视频、音乐等领域具备较为成熟的研究基础,并开发出相应的推荐系统以改善用户体验;相反地,到目前为止,手动筛选仍然是当下志愿者挑选志愿项目的主要方式,多数志愿服务网站仅能提供随机项目或热门项目推荐,并且在所推荐的项目列表中,甚至还会存在已经停止招募的无效推荐。面对志愿服务信息化、智能化发展相对滞后的现状,如何处理并应用志愿服务海量数据,更有效地反哺助力志愿服务领域发展,成为一项亟待解决的问题。本文聚焦于推荐应用,通过对志愿服务数据源开展多角度分析,归纳志愿服务领域于推荐系统研究的独特性及随之产生的问题;并结合近年来广受关注的知识图谱概念,对应地从算法模型与系统设计的角度提出解决方案,为志愿者提供个性化推荐服务。对志愿服务信息化和智慧城市建设具有一定的参考价值。论文的主要工作包括以下内容:一、对中国志愿服务数据源进行分析工作,分别从整体层面,志愿者角度,志愿项目角度,以及二者间交互关系角度四个方面总结该领域特征,存在的问题及可能存在的解决方案,为后续研究讨论奠定理论基础;同时,设计逐日模拟的测试方案,提出更具现实意义的“成功率”评价指标,并依照测试方案抽取实验数据集,为后续研究讨论奠定数据基础。二、基于志愿服务数据的多方位分析,提出基于异质元信息用户嵌入模型的推荐方法CMeta-User2vec,引入志愿者属性元信息构建多元异质信息图谱,结合Word2Vec模型将志愿者嵌入到低维向量空间,以应对志愿服务领域存在的数据稀疏性和冷启动问题。在抽取的实验数据集上以逐日模拟的方式进行测试,与近些年提出的同样可以应对类似问题的推荐算法如 CFKG、HI2Rec、Product2vec、metapath2vec等进行对比,从成功率、召回率、覆盖率等角度验证所提方法的有效性:在实验数据集上,所提方法的平均推荐成功率高达59.96%。最后,还通过补充实验验证了所提向量嵌入模型自身所具备的更广泛的应用普适性:如用于深度学习模型的输入向量预训练等。三、结合混合推荐系统于实际项目生产中的广泛应用,进一步丰富异质信息图谱,引入项目属性元信息构建层次异质信息图谱并在此基础上提出MulGRS混合推荐系统:对单体的传统协同过滤算法,PersonalRank随机游走算法等推荐模型进行适配性改进,以根据志愿者的项目参与状态划分不同情境构建相应的混合推荐模型,进而生成推荐。在这样的设计中,通过多算法的相互配合弥补单一模型的不足,以应对冷启动问题并提升整体的推荐成功率;底层的多层次网络存储结构帮助缓解数据稀疏性问题的同时,图结构相关的过滤操作也有助于提升各个推荐模型的执行效率。在同样的实验数据集上与传统Switching Hybrid、Weighted Hybrid、TransE-CF 等混合推荐系统进行对比,验证所提方法的有效性:在实验数据集上,所提方法的平均推荐成功率高达71.04%。最后,对比了所提两种方法的优劣利弊:不存在适配所有应用场景的方法,总是需要结合具体需求选择合适的推荐模型。四、基于所提出的两种方案,设计并实现志愿服务可视化推荐系统,为志愿者提供项目的多级推荐以及相关信息的个性化展示和检索服务。在多级推荐服务中,MulGRS为志愿者提供实时推荐,CMeta-User2vec为志愿者提供离线推荐,通过对服务器负载的监控进行推荐算法的切换,保证推荐服务的可用性。同时推荐结果将以“志愿者—中间实体—推荐项目”的最短推荐路径可视化形式呈现,提示志愿者推荐理由,增强推荐服务的可解释性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设客栈 ,原文地址:https://bishedaima.com/lunwen/56215.html