基于神经张量网络的知识推理技术研究与实现
这是一篇关于知识图谱,知识推理,词向量模型,语义向量,神经张量网络模型的论文, 主要内容为目前,主流的大型知识库,例如DBpedia、NELL等大多采用信息抽取的方式进行自动化构建,该构建方式具有人工干涉较少、知识库中知识更新及时等优势,但是也带来了知识库完备性的问题。知识库中往往会存在知识缺失的情况,这大大降低了知识库知识的完备性。为了提升知识图谱相关应用的质量,就必须得提升知识库的完备性。如何通过自动化方式来对缺失知识补全成为了知识库构建过程中的一个关键问题。知识推理技术就是基于知识库中现有的知识,对实体间缺失的关系进行推理补全,从而提升知识库中知识的完备性。本文主要针对基于低维度实体语义向量的经典模型-神经张量网络模型NTN中的存在的一些问题,进行了相应的分析和改进,主要包含了以下几项工作:(1)简要概述了知识图谱构建过程中的一些重要技术并对目前国内外知识推理相关技术进行了分析介绍,包括基于逻辑规则、基于关系路径、基于语义向量等主流的几类知识推理技术的优缺点分析。(2)以往实体向量大多采用随机化或者预训练的方式完成初始化,本论文针对上述两种方式尚存的一些不足,提出了一种基于实体属性Type分类初始化实体语义向量的方式。相对于随机初始化实体语义向量的方式,该方式在WordNet、Freebase两个数据集合多种关系的平均推理精度(MAP)分别提升了2.7%、3.2%。(3)针对神经张量网络模型模型复杂度过高的问题,设计了一种改进的推理模型-混合神经网络模型,该模型在张量网络层前面增加了一层标准网络层来降低输入到张量网络层的向量维度,从而降低张量网络层的复杂度。实验证明改进模型在推理精度未减少的前提下,可以有效的减少模型的运行时间(Running Time)。(4)神经张量网络模型的特殊之处在于引入了Tensor的结构用来表征实体向量的交互信息。本文将通过实验来探究了神经张量网络模型中Tensor的片区Slice对模型精度的影响。
基于机器学习的客服语音智能质检系统的设计与实现
这是一篇关于语音质检,文本相似度,卷积神经网络,偏差率,词向量模型的论文, 主要内容为客服语音质检是热线服务运营中一个非常重要的质量控制环节。传统的客服语音质检系统通过人工对照考核标准表听取录音,主要以抽检方式进行,质检效率低且覆盖面小,本文设计与实现了客服语音智能质检系统,利用机器学习中的卷积神经网络CNN(Convolutional Neural Network)模型,计算文本相似度,求出偏差率,进行质检评分,自动化程度高,覆盖面广,大大提高了质检的精确度。本文分析现有的客服语音质检的现状,对河北斯博思创新科技有限公司客服部语音文本数据进行深入研究,通过需求分析,设计总体框架,实现了基于机器学习的客服语音智能质检系统,主要的研究内容如下:(1)数据的获取。数据来源于河北斯博思创新科技有限公司历年客服语音数据。(2)数据的预处理。首先对获取的原始文本进行数据清洗,利用Hanlp分词工具进行中文分词、去停用词。(3)模型的选择。提出两种文本相似度模型,一种是基于文档向量的文本相似度模型,另一种是基于CNN的文本相似度模型,利用公司历年客服数据作为数据集,计算两种模型文本相似度,结合质检标准分别求取偏差率,基于CNN文本相似度模型的偏差率介于0.05-0.06,基于文档向量的文本相似度模型偏差率介于0.12-0.13。实验表明基于CNN文本相似度模型偏差率低、正确率高,所以选择了该模型用于质检。(4)模型的训练。采用Word2Vec算法训练词向量,建立词向量模型。经过Word2Vec算法的处理生成语义扩展矩阵作为CNN的输入,建立两个完全相同的CNN层次组合模型,全连接层产生高级语义,最终利用激活层的Sigmoid激活函数进行输出,以此判别属于某类概率,再用概率判断文本相似程度。本文的创新点,把卷积神经网络CNN模型计算文本相似度引入客服语音智能质检系统,基于B/S架构设计与实现了客服语音智能质检系统,该系统主要完成了自动化质检评分、语音信箱管理等功能,通过应用能较好地满足企业对语音质检服务的要求。
基于语义聚类和加权TextRank的新闻关键词提取方法的研究与实现
这是一篇关于关键词,深度学习,词向量模型,TextRank,新闻热点的论文, 主要内容为随着科技的迅猛发展,信息传播和流通的速度越来越快,每天都有无数的时事新闻在互联网中快速传播,网络上的资源越来越丰富,也越来越繁杂。在时间和精力都有限的情况下,人们难以准确地从海量的数据中把握目标内容。因此迫切需要一种手段,用以快速阅览新闻概要并掌握当下热点,从而省去筛选新闻和通篇阅读的麻烦,这不仅有利于读者,也是有助于新闻工作。作为对一篇文章的主题进行简要概括的一系列词语,关键词不仅对于表述文章的中心主旨有非常实用的意义,还能够帮助我们快速理解文本的中心思想。所以,需要一种有效的关键词分析技术来获取有效信息。目前已有一些成熟的关键词提取算法,但都存在着准确率较低、对于词的特征考虑不全面等弊端。故本文在TextRank算法思想的基础上,使用最新的深度学习模型来突出表现词的语义特征,研究出了一种高效且准确的关键词提取方法,基于此算法设计并实现了一个基于关键词分析的新闻推送系统。此系统包含了新闻获取、文本处理、关键词提取、热点分析和新闻推送等主要功能,在研究中,本文在系统的设计与实现中所做的主要工作如下:(1)研究了网络爬虫和获取新闻网站实时新闻的方法,在此基础上实现了系统中用于得到数据来源的模块。这一模块能够定时启动,获取各大主流新闻网站中最新新闻,并进行准确网页解析,从中提取出新闻数据并存储,给系统中后续的处理提供了有效的数据来源。(2)研究了一种可行的关键词提取方法,并将其作为系统的核心功能。在工作中,首先研究了 TextRank和TF-IDF等已有算法。其中TextRank源自于PageRank算法,基本原理是利用词图模型来传播词的权重,对最终权重排序后得到关键词。TextRank算法中关键词权重传播的倾向性只在于词的出现频率,为了改善这一情况并提高算法效果,本文提出了基于语义和统计特征的TextRank关键词提取算法。首先研究并比较了各种词向量模型,选取了深度学习模型生成的词向量进行k-means聚类来表示语义的聚类特征,并利用词的TF-IDF值来表示候选词语相对于文本库的统计特征,最后再结合上词在文本中的位置特征,构建出一个新的TextRank权重转移概率矩阵。最后利用这一矩阵进行词图的迭代计算和关键词的提取。经过实验仿真,相比于传统的TextRank算法和TF-IDF算法,本文提出的算法在准确率、召回率和F1值上均有较为明显的提高。从而本算法可以用于系统中关键词提取的核心功能。(3)在前面工作的基础上,本文利用Spring Boot框架实现了基于关键词分析的新闻推荐系统。这一系统提供了文本处理和关键词提取等基本特色功能,它不仅能展示最新的新闻及其关键词,还能够根据近期新闻关键词的频率分析出新闻热点,并根据这些新闻热点有针对性的给用户推送新闻,满足以词为出发点来筛选相关或相似内容新闻的需求。
基于神经张量网络的知识推理技术研究与实现
这是一篇关于知识图谱,知识推理,词向量模型,语义向量,神经张量网络模型的论文, 主要内容为目前,主流的大型知识库,例如DBpedia、NELL等大多采用信息抽取的方式进行自动化构建,该构建方式具有人工干涉较少、知识库中知识更新及时等优势,但是也带来了知识库完备性的问题。知识库中往往会存在知识缺失的情况,这大大降低了知识库知识的完备性。为了提升知识图谱相关应用的质量,就必须得提升知识库的完备性。如何通过自动化方式来对缺失知识补全成为了知识库构建过程中的一个关键问题。知识推理技术就是基于知识库中现有的知识,对实体间缺失的关系进行推理补全,从而提升知识库中知识的完备性。本文主要针对基于低维度实体语义向量的经典模型-神经张量网络模型NTN中的存在的一些问题,进行了相应的分析和改进,主要包含了以下几项工作:(1)简要概述了知识图谱构建过程中的一些重要技术并对目前国内外知识推理相关技术进行了分析介绍,包括基于逻辑规则、基于关系路径、基于语义向量等主流的几类知识推理技术的优缺点分析。(2)以往实体向量大多采用随机化或者预训练的方式完成初始化,本论文针对上述两种方式尚存的一些不足,提出了一种基于实体属性Type分类初始化实体语义向量的方式。相对于随机初始化实体语义向量的方式,该方式在WordNet、Freebase两个数据集合多种关系的平均推理精度(MAP)分别提升了2.7%、3.2%。(3)针对神经张量网络模型模型复杂度过高的问题,设计了一种改进的推理模型-混合神经网络模型,该模型在张量网络层前面增加了一层标准网络层来降低输入到张量网络层的向量维度,从而降低张量网络层的复杂度。实验证明改进模型在推理精度未减少的前提下,可以有效的减少模型的运行时间(Running Time)。(4)神经张量网络模型的特殊之处在于引入了Tensor的结构用来表征实体向量的交互信息。本文将通过实验来探究了神经张量网络模型中Tensor的片区Slice对模型精度的影响。
基于神经张量网络的知识推理技术研究与实现
这是一篇关于知识图谱,知识推理,词向量模型,语义向量,神经张量网络模型的论文, 主要内容为目前,主流的大型知识库,例如DBpedia、NELL等大多采用信息抽取的方式进行自动化构建,该构建方式具有人工干涉较少、知识库中知识更新及时等优势,但是也带来了知识库完备性的问题。知识库中往往会存在知识缺失的情况,这大大降低了知识库知识的完备性。为了提升知识图谱相关应用的质量,就必须得提升知识库的完备性。如何通过自动化方式来对缺失知识补全成为了知识库构建过程中的一个关键问题。知识推理技术就是基于知识库中现有的知识,对实体间缺失的关系进行推理补全,从而提升知识库中知识的完备性。本文主要针对基于低维度实体语义向量的经典模型-神经张量网络模型NTN中的存在的一些问题,进行了相应的分析和改进,主要包含了以下几项工作:(1)简要概述了知识图谱构建过程中的一些重要技术并对目前国内外知识推理相关技术进行了分析介绍,包括基于逻辑规则、基于关系路径、基于语义向量等主流的几类知识推理技术的优缺点分析。(2)以往实体向量大多采用随机化或者预训练的方式完成初始化,本论文针对上述两种方式尚存的一些不足,提出了一种基于实体属性Type分类初始化实体语义向量的方式。相对于随机初始化实体语义向量的方式,该方式在WordNet、Freebase两个数据集合多种关系的平均推理精度(MAP)分别提升了2.7%、3.2%。(3)针对神经张量网络模型模型复杂度过高的问题,设计了一种改进的推理模型-混合神经网络模型,该模型在张量网络层前面增加了一层标准网络层来降低输入到张量网络层的向量维度,从而降低张量网络层的复杂度。实验证明改进模型在推理精度未减少的前提下,可以有效的减少模型的运行时间(Running Time)。(4)神经张量网络模型的特殊之处在于引入了Tensor的结构用来表征实体向量的交互信息。本文将通过实验来探究了神经张量网络模型中Tensor的片区Slice对模型精度的影响。
基于语义的结构化加密技术研究
这是一篇关于云存储,结构化加密,主题模型,词向量模型,知识图谱的论文, 主要内容为随着云存储服务的日益成熟和大数据时代的到来,越来越多的用户将海量数据存储到云上并享受检索等多种云服务,不仅节约了本地存储资源,还降低了管理数据的成本。为了保护数据在云上的安全性,用户往往会先将多种类型的数据进行加密后再发送给云服务商。为了能够实现对云中不同类型数据的秘密检索,结构化加密(Structured Encryption,STE)技术应运而生。2010年,Chase和Kamara首次将之前只针对文本的对称可搜索加密(Symmetric Searchable Encryption,SSE)工作扩展到针对任意结构数据的秘密检索,并将这一类工作统称为“结构化加密”。由于目前的结构化加密方案主要采用直接提取文档中所有关键词的方法来构建索引,它们忽视了待检索关键词所要表达的语义信息,使得在检索准确性方面的提升较为有限,所以本论文首次探讨并引入语义特征来设计结构化加密方案。针对两种类型的数据——文本和知识图谱,本论文提出了三个基于语义的结构化加密方案,主要内容如下:(1)为了实现基于语义的对称可搜索加密方案,并提升方案的检索效率和检索准确性,本文提出了一种基于BTM主题模型(Biterm Topic Model)的多关键词可排序对称可搜索加密方案(BTM-MRSE)。数据拥有者将私有文档进行主题建模,来挖掘出各个文本与词之间所隐含的语义信息,用户利用查询关键词的加密概率分布作为检索陷门,通过计算查询词向量与各个主题向量的内积来获得相似度分数最高的主题ID。在索引的构建上,该方案采用两级索引结构同时提升了检索的效率、准确性和安全性。此外,安全性分析和实验分析表明该方案是安全且高效的,BTM-MRSE方案在保证密文检索准确性达95%的同时,在检索效率上较之前的方案也有明显提升。(2)为了对数据用户的待检索关键词进行语义扩展,本文提出了一种基于上下文感知可扩展语义的高效密文检索方案(CASE-SSE)。该方案将数据拥有者的全部私有文档作为语料数据集,构建机器学习模型对文本中词的上下文语义进行训练和学习,训练所得到的模型即为本方案的本体知识库,可直接对待查询关键词进行语义扩展。在构造索引前,本方案利用k-means聚类算法对文本进行分类,根据分类后的文本构造平衡二叉树安全索引和倒排表安全索引,提升了检索准确性和检索效率。此外,安全性分析和实验结果表明该方案是安全且高效的,它在保证检索效率的基础上,提高了返回密文结果的准确度。(3)为了实现对知识的秘密检索,本文提出了知识图谱的结构化加密方案。本方案使用知识图谱(Knowledge Graph,KG)技术对文档内容进行分析和提取,知识图谱中的所有加密节点和边构成了整个索引表和数据库。针对知识图谱的两个主要应用场景,本文总共包括两个方案,第一个方案实现了多关系图(Multi-relational Graph,MG)的结构化加密,另一个方案针对的则是更为复杂的属性图(Property Graph,PG)的结构化加密。此外,安全性分析表明它们都满足CQA2安全性,实验结果表明两个方案都是高效的。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://bishedaima.com/lunwen/56174.html