基于Nutch的漏洞垂直搜索引擎
这是一篇关于垂直搜索引擎,漏洞,PageRank,Nutch,插件的论文, 主要内容为随着计算机及互联网技术的飞速发展,互联网已成为国家重要的信息基础设施。与此同时,互联网作为一个运行系统及社会公共环境,其所面对的和隐藏在其中的安全威胁也越来越复杂、越来越严重。安全漏洞是构成网络安全威胁的重要原因,网络入侵、大规模蠕虫传播、系统拒绝服务等问题多是由安全漏洞所引发。为了降低安全漏洞带来的风险,增加对漏洞威胁的预警能力,提高对安全漏洞进行管理及控制的能力,很多国家安全机构和网络安全组织都建立了漏洞库。但是各个漏洞库收集的漏洞并不全面,对漏洞的缺陷描述也不尽相同。 本文针对目前漏洞库信息庞大、漏洞信息不全面、漏洞描述欠缺等问题,提出可以整合各个漏洞库的漏洞垂直搜索引擎系统。为了实现漏洞垂直搜索引擎系统,本文设计了系统的整体框架流程,并围绕整体框架的各个模块分别进行了研究,如爬行模块,索引模块,检索模块、中文分词模块等。在爬行模块采用站长提交方式建立初始URL集,并采用广度优先的遍历方式访问网页信息,以提高搜索引擎的爬行效率。由于本文所设计的漏洞搜索引擎对排序结果有比较高的要求,所以采用向量模型和链接分析相结合的方法,即增加漏洞信息field和设置文档boost,使漏洞搜索引擎的排序结果达到公平合理的效果。在中文分词模块,使用的是IKCAnaylzer中文分析器,这是因为它是采用基于字典分词技术,针对中文文本实现了正反向全切分和正反向最大匹配。用户界面使用JSP技术完成动态网页生成。本搜索引擎为了方便用户使用,也提供了网页快照功能。本文实现的主要研究成果为:(1)根据PageRank算法在垂直搜索引擎中的缺陷和垂直搜索引擎专注、具体、深入的特点,结合漏洞标题和漏洞描述提供大量漏洞信息的特点,提出对搜索结果进行合理、公平排序的算法。(2)深入研究垂直搜索引擎框架及Nutch的工作流程,使用站长提交方式建立抓取系统的URL集,使用Nutch插件机制实现文本分析、索引系统和搜索系统,从而实现基于Nutch的漏洞垂直搜索引擎系统。(3)相对于Google、Baidu等通用搜索引擎而言,漏洞垂直搜索引擎虽然在检索结果数量上有些逊色,但在结果的精确度和相关性排序上,垂直搜索引擎有明显的优势,检索结果数量的减少在很大程度上也缩减了检索时间。
基于Hadoop的分布式网络爬虫的设计与研究
这是一篇关于Hadoop,分布式,爬虫,PageRank,Simhash的论文, 主要内容为对于网络爬虫进行了一种基于Hadoop的分布式网络爬虫的设计与研究,随着互联网时代的到来,互联网技术迅速得到发展,网络上的网络资源也在快速增长。面对互联网上的各式各样的资源,想要能够快速而又准确的找出需要的资源变得不再那么简单。通过搜索引擎便能完成对信息的检索,而搜索引擎与网络爬虫密不可分,只有通过网络爬虫在互联网上爬取到更多的信息资源,搜索引擎才能完成相应的操作。因此,网络爬虫的设计十分重要。如今,已经有越来越多的公司和组织开始致力于设计高效的爬虫系统来对互联网上数以十亿的网页资源进行爬取。由于互联网上庞大的数据资源,传统单机的网络爬虫的抓取和解析效率已经远远达不到现如今的需求。因此,采用基于Hadoop集群来开发,并对网络爬虫在DNS解析、URL抓取、文件解析、URL获取、URL处理以及判断模块进行设计和优化。对于DNS解析模块,通过在上一轮抓取任务开始时,在节点上创建一个解析下一轮待抓取URL的线程来对域名进行提前解析,并将解析的结果存入DNS缓存区中。通过这种预处理过程和缓存区的设计,使得爬虫系统在下一轮抓取任务开始时,不需要等待解析域名过程的完成,而直接去DNS缓存区中获取对应的IP地址映射。这可以有效的增加爬虫系统的效率。在抓取模块中,采用了PageRank算法对URL的重要性进行判断,对待抓取的URL按照PageRank值的大小进行抓取。通过对互联网中网页各种出链形式的分析,采用迭代的思想得到每个网页初始的PageRank值。再依据互联网中出链的指向情况来相应的增加网页的PageRank值。由于网页PageRank值的大小从侧面反映了互联网中出链指向该网页的数量,也决定该网页的重要程度,使得抓取顺序即为网页重要性程度的顺序。这大大降低了垃圾网站的无关信息出现在搜索结果中的机率。文件解析模块中,通过实现Apache Tika对外提供的外部接口,并调用其中的工具来完成对于不同文件的解析和处理。将解析出来的信息中的URL资源信息进行提取,并匹配正则表达式的格式,来判断URL是否合法。在处理模块中,针对网络中网页相似度较高甚至重复的情况,通过采用指纹生成算法中的Simhash算法,对网页文本信息进行分词操作,并对分词设定权重级别。通过每个分词对应的hash值和权重级别,进行加权计算并得到相应的加权值。再合并分词的加权值就可将文本信息转换成长度一定的序列串。通过降维的方式,可以将文本信息相似度的对比转换成比较相应二进制序列串的对比。通过统计二进制序列串中对应位置上数字不同的个数,得到海明距离。爬虫系统会将海明距离小于3的网页判定为重复网页,不进行重复抓取而直接舍弃。URL获取模块通过MapReduce算法的计算获取URL信息,并将已抓取的URL状态更改为已抓取状态。将抓取到的URL资源传递给判断模块,通过判断URL种子库中是否已经包含了该URL资源,来决定对URL资源进行不同的处理。如果包含该资源,爬虫系统会直接舍弃该资源;如果不包含,则会将该资源加入到URL种子库的末尾。通过在URL种子库中加入不同数量的URL来测试爬虫的功能,结果显示URL种子库中URL数量不同时,都能够完成从URL种子库中的URL为起点抓取到互联网中的URL资源,并且在抓取过程严格按照PageRank值的大小顺序进行抓取。在URL种子库中放入两条重复的URL时,通过Simhash算法的计算后海明距离小于3,来判定两个网页为重复网页,只进行了一次抓取动作。又在不同节点数的集群下完成抓取过程时,通过对抓取的网页数量和抓取时间的统计,计算出了不同节点数的集群下的抓取速率,得出节点数越多速率的波动越小,且最后抓取速率会基本稳定在某个固定值附近作上下波动的结论。通过速率大小的对比,得出节点数越多网络爬虫抓取的速率越大,但随着节点数的不断增加,抓取速率的增长程度会不断变小。
基于图的多层个性化电影推荐算法的研究与应用
这是一篇关于个性化推荐,多层推荐,PageRank,PersonalRank,HugeGraph的论文, 主要内容为随着互联网的发展,信息量处于一直不断增长的状态。如何从海量的信息中获取所需信息,已经成为一个需要重点关注和研究的课题。传统的个性化推荐算法只能实现一种类型的实体推荐,不能满足一次性进行多种类型实体推荐(即多层推荐)的需求。为此,本文对基于图的多层个性化电影推荐算法进行深入研究。本文通过融合传统的个性化推荐算法PageRank和PersonalRank,提出了一种多层个性化电影推荐算法。进一步地,为了提高算法的推荐效果,分别从不同的角度提出了两个多层个性化电影推荐改进算法。此外,设计实现了一个基于图的多层个性化电影推荐系统,以帮助用户一次性获取多种类型的推荐实体,从而节省时间成本。主要研究内容如下:本文首先对本课题的研究背景和意义进行了概述,并对个性化推荐算法在国内外的研究现状进行了分析。其次,对本文涉及到的相关理论以及使用的技术进行了阐述。之后,完成了本文后续研究将使用的数据集的获取和处理。随后,本文提出了一种基于PageRank和PersonalRank算法的多层个性化电影推荐算法PP-Rank,详细描述了算法的过程和实现,并对该算法的时间和空间性能进行了理论分析。将PP-Rank算法分别与User CF和Item CF等4个传统的个性化推荐算法进行了对比实验,并使用准确率等指标评价实验结果。实验结果表明,本文提出的PP-Rank算法的推荐效果最优。此后,在PP-Rank算法的基础上,提出了一种基于电影特征相似度的多层个性化推荐改进算法PP-SimilarityRank。设计了PP-Rank与该算法的对比实验,并使用准确率等指标评价实验结果。实验结果表明,后者的推荐效果更优。此外,还提出了一种基于边权重值的多层个性化电影推荐改进算法PP-WeightRank,以进一步提高PP-Rank算法的推荐效果。设计了PP-SimilarityRank与该算法的对比实验,并使用准确率等指标评价实验结果。实验结果表明,后者的推荐效果更优。随后,通过将PP-SimilarityRank和PPWeightRank算法两者进行结合得到PP-SWRank算法并实验,使用准确率等指标评价实验结果。实验结果表明,结合后的PP-SWRank算法可达到更优的推荐效果。最后,本文分析了借助Huge Graph完成的基于图的多层个性化电影推荐系统的设计目标,设计了系统架构、模块结构和数据库,介绍了系统开发环境及工具,详细描述了各个模块的实现过程,展示了推荐结果。
基于图表示学习的节点聚合方式优化
这是一篇关于图表示学习,图神经网络,PageRank,节点分类,马尔可夫扩散核的论文, 主要内容为图结构数据在现实生活中广泛存在,能够广泛的构建实体与实体之间的联系,现实生活中很多网络,如社交网络,引文网络,交通网络,推荐系统,生物化学中蛋白质的构建等,都可以用图结构数据所表示。节点聚合方式是指将邻居节点的信息汇总到中心节点,生成新的节点向量表示的过程,优化节点聚合方式可以提高图表示学习的性能,是图表示学习领域最重要的问题之一。随着深度学习在各领域获得了成功,将深度学习迁移到图表示学习上已经成为当前研究的一个热点。在当前的图表示学习中,常用的节点聚合方式为图神经网络,具体为:图卷积网络(GCN)、简化图卷积(SGC),图注意力网络(GAT)、PPNP等。然而,这些方法仍然存在一些问题,现有图神经网络在处理图结构数据中不够强大,无法充分挖掘图结构数据中潜在信息和潜在联系。在传播过程中,邻域大小往往难以扩展,且节点的传播只考虑了最近的邻居节点,在进行多次卷积操作之后,传统图神经网络有着过平滑,泛化性能差等问题。为了解决这些问题,本文进行了以下工作:(1)针对图神经网络无法充分提取出节点特征和图结构中的相关信息,存在过平滑等问题,本文提出一种基于Page Rank的图混合随机网络方法(PMRGNN)。为了能够有效的聚合多阶邻域信息,提出一个带有Page Rank的随机传播策略的图数据随机增强模块,其次,设计了混合网络结构,通过多层感知机(MLP)和卷积层相结合,使得节点和其邻居的信息得到有效利用。此外设计了特征提取器损失和图正则化项,通过最小化两个特征提取器之间的距离,使两个特征提取器提取出的信息保持一致性,同时加入图正则化项,有效利用节点与其邻居信息,提高了模型的泛化性能。(2)针对传统图神经网络算法存在着过平滑,泛化性能差,鲁棒性不高的特点,本文提出了基于马尔可夫扩散核的自适应图随机神经网络(ARM-net)。首先,使用伯努利分布对特征矩阵进行随机数据增强,使节点对特定邻域不敏感,从而提高模型的鲁棒性。其次,引入可学习参数,基于马尔可夫扩散核定义自适应传播过程,在传播过程中,将传播和特征转换分离,先进行传播,再进行特征转换。通过解耦传播和特征转换,有效拓展了节点的邻域,使得节点和其邻居的信息得到有效利用,平衡了来自每个节点的局部和全局邻域信息,也降低了过平滑的风险。最后本文设计了图正则化项,一定程度上降低了过拟合,增强了模型的泛化性能。为了验证论文中模型的有效性,在Cora,Citeseer,Pubmed三个数据集上分别进行了实验,并对实验结果进行综合性分析,在不同的评价指标下,本文所提出的方法都有较好的效果。
基于Nutch的漏洞垂直搜索引擎
这是一篇关于垂直搜索引擎,漏洞,PageRank,Nutch,插件的论文, 主要内容为随着计算机及互联网技术的飞速发展,互联网已成为国家重要的信息基础设施。与此同时,互联网作为一个运行系统及社会公共环境,其所面对的和隐藏在其中的安全威胁也越来越复杂、越来越严重。安全漏洞是构成网络安全威胁的重要原因,网络入侵、大规模蠕虫传播、系统拒绝服务等问题多是由安全漏洞所引发。为了降低安全漏洞带来的风险,增加对漏洞威胁的预警能力,提高对安全漏洞进行管理及控制的能力,很多国家安全机构和网络安全组织都建立了漏洞库。但是各个漏洞库收集的漏洞并不全面,对漏洞的缺陷描述也不尽相同。 本文针对目前漏洞库信息庞大、漏洞信息不全面、漏洞描述欠缺等问题,提出可以整合各个漏洞库的漏洞垂直搜索引擎系统。为了实现漏洞垂直搜索引擎系统,本文设计了系统的整体框架流程,并围绕整体框架的各个模块分别进行了研究,如爬行模块,索引模块,检索模块、中文分词模块等。在爬行模块采用站长提交方式建立初始URL集,并采用广度优先的遍历方式访问网页信息,以提高搜索引擎的爬行效率。由于本文所设计的漏洞搜索引擎对排序结果有比较高的要求,所以采用向量模型和链接分析相结合的方法,即增加漏洞信息field和设置文档boost,使漏洞搜索引擎的排序结果达到公平合理的效果。在中文分词模块,使用的是IKCAnaylzer中文分析器,这是因为它是采用基于字典分词技术,针对中文文本实现了正反向全切分和正反向最大匹配。用户界面使用JSP技术完成动态网页生成。本搜索引擎为了方便用户使用,也提供了网页快照功能。本文实现的主要研究成果为:(1)根据PageRank算法在垂直搜索引擎中的缺陷和垂直搜索引擎专注、具体、深入的特点,结合漏洞标题和漏洞描述提供大量漏洞信息的特点,提出对搜索结果进行合理、公平排序的算法。(2)深入研究垂直搜索引擎框架及Nutch的工作流程,使用站长提交方式建立抓取系统的URL集,使用Nutch插件机制实现文本分析、索引系统和搜索系统,从而实现基于Nutch的漏洞垂直搜索引擎系统。(3)相对于Google、Baidu等通用搜索引擎而言,漏洞垂直搜索引擎虽然在检索结果数量上有些逊色,但在结果的精确度和相关性排序上,垂直搜索引擎有明显的优势,检索结果数量的减少在很大程度上也缩减了检索时间。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计工坊 ,原文地址:https://bishedaima.com/lunwen/53473.html