文档级实体消歧技术的研究
这是一篇关于知识图谱,实体链接,实体消歧,双向长短期记忆模型,注意力机制,PageRank算法的论文, 主要内容为网络中的数据量迅速增长,如何挖掘并利用网络数据中有用的信息是当前自然语言处理领域关注的重点问题。网络中的数据通常是以自然语言的形式存在,但计算机处理自然语言时只能获取到自然语言的一些表面信息而不能对其进行更高层次的语义分析,因此不能有效挖掘到这些数据中的有用信息。知识图谱把非结构化的自然语言转换成结构化的形式,在对数据的描述方面具有特别大的优势。如果能把网络数据和知识图谱关联起来,运用知识图谱中的结构化信息,计算机在对网络数据进行处理时就能更深层次的理解数据的语义信息,这促进了自然语言处理领域的发展。将自然语言和知识图谱进行关联所使用的技术称为实体链接技术,实体链接技术是指在知识图谱中找到文本中出现的实体指称所对应的真实实体的过程。然而自然语言中的一些实体指称存在着一词多义或多词一义的现象,因此在将自然语言和知识图谱之间进行实体链接的时候,需要进行消歧操作找到文档中实体指称在知识图谱中所对应的实体。实体消歧技术分为局部消歧和全局消歧两种。局部消歧是指对文档中的实体指称单独进行消歧,没有考虑同一篇文档中的实体之间的关联信息;全局消歧利用文档中实体之间的关联信息对所有实体进行协同消歧,但如何提取实体之间的关联信息是需要考虑的问题。本文对实消歧技术进行研究,提出一种文档级的实体消歧技术。该技术将局部消歧和全局消歧相结合,包括以下两个方面的工作:首先利用文档中的实体指称的上下文信息对单个实体指称进行局部消歧。本文局部消歧采用基于深度学习的方法,利用Bi LSTM+Attention模型捕获文本中实体指称的上下文特征向量,利用Trans E模型来表示知识图谱中候选实体的特征向量,然后利用相似性函数计算实体指称和候选实体的之间的相似性得分,将相似性得分作为候选实体的局部消歧得分。其次利用文档中的所有实体指称之间的关联信息和候选实体的局部消歧得分,采用基于关联图和Page Rank算法的全局消歧模型进行对文档中的所有实体指称协同消歧。本文提出一种关联图的构造方法,基于知识图谱,将一篇文档中的所有实体指称的候选实体构成关联图。利用卡茨相关性计算实体之间的关联度,利用每个实体的局部消歧得分计算每个实体节点的Page Rank初始值。采用Page Rank算法对图进行迭代运算,每次迭代完成时,挑出得分最高的候选实体作为所对应实体指称的最佳匹配实体,逐步完成整个文档中所有实体指称的消歧。最后通过消融实验和对比实验对本文所提方法的消歧效果进行验证和分析。在消融实验中,通过设置消融模型以验证加入全局特征后对于消歧效果的积极影响。在对比实验中,通过与其他消歧方法的消歧效果进行对比来证明本文方法的有效性。将准确率、召回率、F1值和耗时作为实验的评价指标,实验结果表明本文的方法具有较好的消歧效果。
恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现
这是一篇关于网络爬虫,恶意URL检测,多线程,PageRank算法的论文, 主要内容为随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,如何有效地采集并利用这些信息成为一个巨大的挑战。搜索引擎正是解决这一问题的有效工具,而高效的网络爬虫是搜索引擎的核心技术之一。网络爬虫是一个可以从因特网上自动提取网页的系统,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。而本文的网络爬虫系统是为恶意URL检测项目服务的,为其提供被检测的URLs,充实URL库。 本文首先总体介绍了爬虫系统为之服务的恶意URL检测项目,并简单总结了此项目的实验结果。随后对网络爬虫的研究现状、搜索策略、PageRank算法等技术进行了详细的论述。最后对网络爬虫系统的详细设计和实现进行了论述。 本文通过Java语言实现了一个基于广度优先搜索策略的多线程爬虫程序。论文对爬虫系统的各个功能模块的设计和实现进行了详细的论述,包括关键技术的分析和解决方案等。本文详细介绍了多线程并行机制,并用线程池来管理多线程;在url调度策略方面,采用了cache缓存的机制,在url去重方面,采用了基于LRU算法的MD5算法;基于可扩展性方面,采用面向接口编程的思想,以利于程序的可扩展性;针对恶意URL检测项目的要求,在标识优先级方面,采用了改进的PageRank算法。 论文从爬行效率和爬全率等方面对系统进行了测试,通过测试数据的分析,此系统满足项目的要求,得到了较好的结果。
主题爬虫关键技术研究
这是一篇关于主题爬虫,PageRank算法,相关度计算,URL消重的论文, 主要内容为如今,由于互联网的发展速度愈来愈迅速,信息与资源的传播和发布也随之变得更加迅速和快捷,互联网上信息量的规模也因此日益巨大,这就导致信息检索愈加艰难了,不过幸运的是用户可以利用搜索引擎非常迅速的检索信息,并且把搜索引擎当作日常生活和工作中一种必不可少的工具。作为搜索引擎的抓取模块之一的网络爬虫,主要的职责是搜集并且下载互联网上人们所需要的网页。搜索引擎优劣的评判标准在一般情况下主要取决于爬虫系统的工作效率和所爬取到的网页的准确率,因此爬虫是构成搜索引擎非常关键的部分之一,需要人们去好好的改进与研究。近些年来,由于网络规模的无限扩大,导致通用爬虫的负担无比沉重,至此主题爬虫便显得尤为重要,它是一种面向个性化服务的系统,会更加有针对性的选取某个特定领域进行爬取,获取用户真正想要的信息,这使得人们的工作效率大大改善,于是主题爬虫便吸引了大家广泛的重视。一条崭新的路径缠绕着主题爬虫领域展开着,此领域的实用价值与理论价值都是不可估量的,本文主要围绕主题爬虫所涉及的相关技术和特点进行了研究,所做的一系列任务和所取得成果如下所示: (1)实现了一种改进的PageRank算法,改进的PageRank算法的核心思想就是把互联网上的整个网页分成许多个块,然后采用分治法,分别计算各个块的PageRank值,再根据各个块的权值的相对重要性,求出整个网页的PageRank值。 (2)提出了一种新的分阶段融合的语义相似度计算方法。从语义角度理解汉语,比 基于统计的方法更贴切。通过研究和对比,本文提出了从句子、段落到文本整体分阶段进行的计算方法,结合每个阶段的特点,分别融入了对文本语义的计算因素,力求最后的相似度计算结果更为准确。 (3)研究了当爬虫系统爬取到的网页数量非常大时,如何消除重复的URL,本文主要是借助MD5算法建立索引,然后将索引建立成B树的结构,使索引存储在内存中,而数据部份则存储在硬盘当中,从而降低了空间复杂度。 (4)运用所改进的相关算法,模拟并简略实现了一个手机主题爬虫系统,用代码进行实验论证,并且分析最后的实验数据,论证了本文理论的有效性和合理性。
基于改进PageRank算法的引文推荐系统研究
这是一篇关于引文推荐,学术授信评价,引文网络,PageRank算法,LSI模型,Dh指数的论文, 主要内容为随着各种文献资源数量的迅猛增长,学者们开展文献调研工作的难度也日益增大。研究人员需要耗费大量时间与精力去研判文献的相关性及价值,科研效率也随之受到影响。在学术信息过载的背景下,引文推荐研究应运而生。引文推荐系统可以对用户输入的某些主题词或上下文段落,有针对性地为其推荐相关研究成果。目前,学术界致力于结合各种理论和技术对引文推荐方法进行创新,以求提供更精准的引文推荐列表,但鲜有从借助学术影响力对引文推荐列表排序优化的研究。此外,现有的引文推荐系统或模型研究,其推荐依据多为文献的元数据信息,可能导致因元数据信息涵盖不全导致的遗漏现象。针对以上情况,本文开展了基于改进Page Rank算法的引文推荐系统研究,主要分为三个部分:(1)利用学术授信评价理论对Page Rank算法进行改进,提出了ACPage Rank算法,利用该算法对引文推荐列表进行优化排序。该算法的核心思路为:识别引文网络中的专家群体,根据专家群体的引用情况调整引文网络中部分文献的权重。(2)使用文献全文本构建特征向量,以降低用户漏引概率。将ACPage Rank算法与构建特征向量常用的LSI模型相结合,设计出一套引文推荐系统。该系统不仅可以显示推荐文献列表的篇名,还能向用户展示文献中最相关的段落,以及该主题的高产作者及机构。(3)建立样本数据集,对本研究开发出的系统进行测试,并对实验结果进行分析与总结。实验结果表明:LSI模型比TF-IDF模型更适用于引文推荐系统,它不仅能较好地解决同义词问题,且查全率和查准率均可以较TF-IDF模型提升4%以上。采用ACPage Rank算法的LSI模型能进一步优化文献推荐效果,将专家群体引用、认可的高质量文献优先呈现给用户。本文所设计系统的推荐结果综合考虑了文献的被引情况、获得专家群体学术授信情况等多种因素,较好地体现了“内行”视角的相关文献发现过程,帮助用户快速发现专业领域内的高价值文献。总之,该系统有助于减少非相关文献的干扰,帮助用户提高文献调研效率。
面向汽车领域采购线索发现的主题爬虫设计与实现
这是一篇关于主题爬虫,PageRank算法,网页排序,主题相关度的论文, 主要内容为随着互联网的不断发展,网络现已成为全球化的信息库。在当今工业化、信息化的时代,汽车领域的网络数据增长迅速,其中关于车辆采购的信息能够充分表明市场中对于汽车的具体需求。对于汽车采购线索的发现与研究,在汽车销售、研发等方面起着重要的作用。互联网中存在着大量汽车领域相关采购数据的信息资源,但是由于信息获取较为复杂,不能被共享,导致了大量资源的浪费。如何定向爬取汽车采购线索的数据,将信息资源进行整合,成为目前主要的研究方向。政府采购网站是一个获取汽车采购数据的重要来源,主题爬虫技术是获取网络数据信息的主要方法,也是本文的主要研究内容。主题爬虫的功能是根据预设的关键词和初始网络url地址,在web上爬取与主题相关的数据资源。为获取汽车领域内采购线索的信息,本文在进行充分研究后,设计并实现了面向汽车领域采购线索发现的主题爬虫系统,主要工作如下:首先对各省市政府采购网站进行网页结构分析,爬取网站公告中与车辆采购、汽车租赁相关的网页信息,获取网页间的链接关系并存入数据库。其次,对PageRank算法进行改进,使其更加适用于汽车领域内采购线索的发现。传统的PageRank算法只考虑到网页之间的链入链出关系,并没有考虑主题相关度,会出现“主题漂移”现象,以及算法没有考虑到网页发布时间而导致“偏重旧网页”等问题。本文针对以上不足,将传统PageRank算法与车辆采购主题相结合,提出了一种面向汽车领域采购线索的APC-PageRank算法。该算法通过判断文本与汽车采购主题的相关性计算得到文本的权重值。权重值向量作为APC-PageRank算法的一个参数进行迭代计算。此外,文本在网页文档中出现的位置不同,重要性也不相同,例如标题的重要程度会高于正文内容。因此,对词项出现的不同位置赋予不同权重,作为APC-PageRank算法的一个参数。由于采购网公告会显示发布时间,所以添加时间反馈因子,对新发布的网页做出一定的补偿,使新网页在一定程度上能够上浮。最终得出PR值,并根据得分进行网页排名,使排序的结果更加符合主题。最后,针对设计出的面向汽车领域采购线索发现的主题爬虫系统进行实现。实验结果表明改进后的算法在汽车领域内对于汽车采购线索的主题表示方面具有良好的效果,主题明确且链入链出度高的网页,能够获得更高的排名,网页排序的主题准确率有所提高。
面向知识结构的教育图谱分析系统的研究与实现
这是一篇关于在线学习,知识结构,知识图谱,复杂网络,PageRank算法的论文, 主要内容为学习始终是人们的一项重要需求。在当代社会,人们已不再满足于学校中传统的课堂学习,有越来越多的学习者开始转向高速互联网上的在线学习模式,越来越多的研究人员也开始关注如何为学习者提供更为“个性化”、“智能化”的服务。对于这个新兴领域的快速发展,知识图谱起到了十分重要的作用,其相关研究对于学习者、教师以及个性化导学系统研发人员都具有重要意义。本文以教学知识点及其联系构成的教育图谱为研究对象,结合复杂网络分析方法,设计并实现能够满足各类用户多粒度、多角度查询的分析系统。首先,介绍了在线学习与知识图谱方面研究与应用工作的开展现状。通过对学习平台、个性化导学、一体化环境等方面成果的总结,结合知识图谱的研究进展,特别是领域知识图谱的应用现状,阐述了本文对教育图谱研究的必要性。再通过分析复杂网络理论与知识图谱的联系,说明了将复杂网络分析方法运用于教育图谱的优势与可行性。然后,通过需求分析,明确了用户的需求目标,包括不同粒度的查询、多角度的分析以及可视化展示等。确定了系统的基本功能模块划分,包括数据管理模块、数据检索模块、网络分析模块以及图谱可视化模块,并对每部分进行了详细的功能设计与操作流程设计。其中,对于用户的重点需求,即知识点重要性分析,本文以PageRank算法为基础,分析教育图谱与传统复杂网络之间的差异,提出改进算法:结合图谱的拓扑统计信息,提出了非均匀初始化方法;结合知识点之间的前置关系,提出了节点重要性反向传递方法;结合学习者的学习行为习惯,提出了中粒度困局修正方法。实验验证本文算法在保证基本时间效率的前提下,其计算结果能够更好的反映知识点的重要程度。最后,以系统总体设计为基础,完成各部分功能的代码实现,整合为教育图谱分析系统,满足需求分析所设定的目标,并通过详尽的测试,保证系统稳定运行,为包括学习者在内的各类用户提供服务。
基于多源数据的微服务性能异常检测与根因定位
这是一篇关于微服务,多维时序异常检测,根因定位,PageRank算法,频谱法的论文, 主要内容为随着微服务概念的兴起以及容器化技术的日益成熟,更多的Web应用由原来的单体架构逐渐演变成为结构复杂的微服务架构。现在的微服务系统,通常由数十到数千个微服务组成,调用关系非常复杂。这就给应用系统的维护带来了巨大的困难与挑战。此外,微服务系统故障会导致非常巨大的损失,主要包括经济损失和用户满意程度的损失。所以,当微服务系统出现异常时,需要快速地定位到异常根源。但是进行高效准确的异常检测是非常困难的。如大量的底层服务、服务之间复杂的调用关系、数据集难以获取等都带来了严峻的挑战。近年来,AIOPS-智能运维应运而生,基于机器学习,致力于更高效的故障定位。然而在现有的一些方法中均存在一些不足。在异常检测方面,基于调用链的异常检测,往往会面临向量的维度爆炸问题,这会直接影响模型的准确度。以及通过异常服务间KPI指标相关性来推断服务间的调用关系,可能因为错误的推断,导致后续的根因定位不准确。而在根因定位方面,现有的方法大多是依赖于改进的PageRank算法或者频谱法来进行定位,只依赖了调用关系或者基于统计的方式来推断根因,这通常是不够准确的。本篇论文试图通过结合多源的监控数据,以及全新的异常检测与根因定位方法,做到更准确的异常检测与根因定位。在异常检测方面,本文于多源数据,结合了服务调用链的异常检测与服务自身的异常检测。对于调用链的异常检测,本文提出了一种更有效的调用链向量构造方式,在一定程度上避免了维度爆炸问题。对于服务的异常检测包括两部分,首先是基于服务KPI时序指标的异常检测,对此本文提出了基于VAE模型改进的多维时序异常检测模型GRU-VAE,然后使用频谱法共同完成对服务的异常评分。本文的根因定位方法对基础的PageRank算法进行了改进。创新点在于,以往的PageRank算法没有动态地考虑节点自身的权重以及节点间游走的概率。尤其是在多根因的情况下,传统的PageRank算法表现得不佳。本文将服务级别的异常检测得分与服务调用链级别的异常得分相结合,分别初始化服务调用图中的节点权重以及节点间的转移概率。改进后的PageRank算法不仅仅考虑到了服务之间的异常调用关系,还结合了服务本身的异常程度与服务间的异常游走概率,可以做到更准确的根因定位。最后我们通过简单的解释力公式计算来实现Pod级别的根因定位。实验结果证明,我们的异常检测与根因定位方法相比于其他的方法,覆盖的问题更加的全面并且准确性和可解释性均有所提高。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头网 ,原文地址:https://bishedaima.com/lunwen/48786.html