9篇关于分布式网络爬虫的计算机毕业论文

今天分享的是关于分布式网络爬虫的9篇计算机毕业论文范文, 如果你的论文涉及到分布式网络爬虫等主题,本文能够帮助到你 基于Hadoop的分布式网络爬虫设计与实现 这是一篇关于分布式网络爬虫

今天分享的是关于分布式网络爬虫的9篇计算机毕业论文范文, 如果你的论文涉及到分布式网络爬虫等主题,本文能够帮助到你

基于Hadoop的分布式网络爬虫设计与实现

这是一篇关于分布式网络爬虫,Hadoop,URL去重,SimHash的论文, 主要内容为随着大数据、人工智能时代的到来,互联网上的网络信息日新月异,呈现爆炸式增长态势。传统单机网络爬虫已然无法满足要快速、高效、可靠地获取互联网上不断快速增长的海量网络信息资源的需求。近些年,随着Hadoop、Spark等大数据分布式技术的不断发展,这些技术为海量网络信息资源的存储和计算提供了可能。这里,本文设计和实现了一个基于Hadoop的分布式网络爬虫系统,旨在解决传统单机网络爬虫、一般分布式网络爬虫存在的不能适用于海量网页数据的应用场景、抓取网页速度慢、主节点单点故障等问题,使网络爬虫能够很好地适用于海量网页数据的应用场景,有效提高网络爬虫的网页抓取速度。本文主要工作内容如下:(1)研究了传统单机网络爬虫、Hadoop相关组件的基本原理和工作流程,重点对网络爬虫中的URL去重算法和网页去重算法进行了深入的研究。针对基于Bloom Filter的URL去重算法和基于Sim Hash的网页去重算法这两种单机去重算法存在的问题,结合Hadoop分布式编程技术,本文设计和实现了一种基于Sim Hash的分布式URL去重算法,该算法是基于网页内容和URL链接进行URL去重的,很好地提高了URL去重率,加快了爬虫系统抓取网页的速度,适用于海量网页数据去重的应用场景。(2)对基于Hadoop的分布式网络爬虫系统进行了详细的设计与实现,具体包括系统的需求分析、架构设计、工作流程设计、功能结构设计、分布式存储设计,以及利用HDFS、Map Reduce分布式编程技术实现系统的各个功能模块等。(3)在本地搭建了基于Hadoop HA高可用分布式集群测试环境,根据本文给定的测试方案分别对系统的功能、性能、可扩展性、高可用性、URL去重算法这5个方面进行了测试。通过对测试结果分析可以得到:本文设计的分布式网络爬虫系统满足了系统各模块功能、可扩展性、高可用性、URL去重的需求,同时该系统具有较高的爬虫效率和URL去重率,满足了系统的性能需求,适用于海量网页信息资源获取的应用场景。

支持动态网页解析的分布式网络爬虫系统的设计与实现

这是一篇关于分布式网络爬虫,获取动态网页数据,反网络爬虫的论文, 主要内容为网络爬虫技术,为获取互联网中的数据提供最为便捷的方式,它不仅是传统搜索引擎公司的底层基础,也是大数据时代获取web数据的利器。近年来,随着互联网技术的迅猛发展,web数据呈指数级增长,面对获取海量web数据的需求,单机网络爬虫技术不再实用,因此,采用分布式的网络爬虫技术成为获取海量web数据的先决条件。随着web前端技术的发展,反爬虫技术的增强,系统复杂性的增大,爬虫爬取数据时还存在一些问题:获取动态网页数据的问题,反网络爬虫的问题,集群稳定性的问题。这些问题,严重影响了爬虫系统获取目标数据(用户所需要的数据)的效率。本文在分布式网络爬虫的基础上,针对这些问题,进行研究并设计解决方案。本文主要工作如下:(1)获取动态网页数据方面:互联网中存在大量异步加载的动态网页数据,这些数据是普通网络爬虫不能直接获取的。目前程序切片方法[21]存在算法复杂度高和精确度低等缺陷,而调用浏览器API的方法[15][16]存在爬取效率低的缺陷。本文提出了一种基于规则库的方法,将网页分类处理,可以获取动态网页和静态网页数据,避免了算法复杂度高和精确度低的缺陷,提高了爬取数据效率。(2)应对反网络爬虫方面:大多数公司会对其网站的数据进行保护,采用各种技术手段,以防止被肆意抓取数据。目前解决反爬虫的策略[13][18],不能应对爬取少量站点中的大量数据。本文设计了 IP代理池策略和类人爬取策略,这些策略采用随机更换代理IP的方法和模仿人访问目标站点的方法,可以绕过反爬虫机制。(3)集群稳定性方面:复杂的集群系统在长期运行中,可能会出现节点不能正常工作或者退出集群系统的现象。目前维护集群稳定性的策略[15][48]存在功能简单、丢失任务等缺陷。本文设计了心跳检测策略和记录丢失任务策略,通过定时监测节点发送的各种消息以及检测丢失的任务,解决节点不正常工作、掉线以及任务丢失等问题。(4)经济成本方面:本文设计的爬虫系统基于灵活订制的开源框架,可以自由删减不必要的功能,从而实现轻量级的系统,使得集群节点可以运行在树莓派(只有信用卡大小的微型电脑,其系统基于Linux)之上,为搭建集群降低了经济成本,以便该系统更实用于预算相对紧张的科研机构、以及中小型企业。最后,通过设置对比实验,本文设计的40个节点的分布式爬虫集群,相比参照实验的单机40个线程的爬虫,性能至少提高了 3-4倍,成本节省了 30%;在获取动态网页数据方面,设置了本文设计策略和参考文献策略[15]的对比试验,实验表明消耗时间减少了约39%;在系统稳定性和反爬虫方面,设置了测试实验,结果表明能够顺利完成大量的爬取任务,系统具有较强的健壮性。综合实验测试结果表明达到了预期效果,并且拥有较好的性能。

分布式网络爬虫的研究与实现

这是一篇关于分布式网络爬虫,URL去重算法,Hadoop的论文, 主要内容为在大数据时代,传统单机网络爬虫已经不适用于海量Web信息采集,因此研究分布式网络爬虫是必然的趋势。目前,国内外一些大型互联网企业已经开发出了大规模分布式网络爬虫,但是相关技术方案并不对外公开。开源界也存在一些持续更新的分布式网络爬虫项目,然而这些重量级项目往往存在着配置运行复杂、使用门槛高等问题。在此背景下,本文着重研究基于Hadoop的轻量级分布式网络爬虫,主要工作如下:(1)研究了网络爬虫系统中的重要算法—URL去重算法,分析了目前主流URL去重算法的优缺点。以保证系统轻量级为目标,将分布式技术和单机URL去重算法相结合,提出了一种基于MapReduce的分布式URL去重算法。该算法不仅解决了单机URL去重算法在处理海量数据时的低效问题,而且能够和本文设计的轻量级系统良好结合,使系统中负责URL去重工作的模块具备低耦合高内聚的特点,保证了系统运行的高效性。(2)利用Hadoop中两大核心组件一分布式文件系统HDFS和分布式编程模型MapReduce,设计了一种高效的轻量级分布式网络爬虫,并且制定了系统的详细设计方案,主要包括系统的架构设计、工作流程设计、分布式功能模块设计以及分布式存储设计等。(3)按照设计方案,使用JAVA语言对系统进行了实现,并将其部署在节点规模不一的若干Hadoop集群中进行相关测试,主要包括系统的功能测试以及性能测试。通过对测试数据进行记录分析,发现本文设计的分布式网络爬虫具备较强的大规模Web信息采集能力和良好的可扩展性。

支持动态网页解析的分布式网络爬虫系统的设计与实现

这是一篇关于分布式网络爬虫,获取动态网页数据,反网络爬虫的论文, 主要内容为网络爬虫技术,为获取互联网中的数据提供最为便捷的方式,它不仅是传统搜索引擎公司的底层基础,也是大数据时代获取web数据的利器。近年来,随着互联网技术的迅猛发展,web数据呈指数级增长,面对获取海量web数据的需求,单机网络爬虫技术不再实用,因此,采用分布式的网络爬虫技术成为获取海量web数据的先决条件。随着web前端技术的发展,反爬虫技术的增强,系统复杂性的增大,爬虫爬取数据时还存在一些问题:获取动态网页数据的问题,反网络爬虫的问题,集群稳定性的问题。这些问题,严重影响了爬虫系统获取目标数据(用户所需要的数据)的效率。本文在分布式网络爬虫的基础上,针对这些问题,进行研究并设计解决方案。本文主要工作如下:(1)获取动态网页数据方面:互联网中存在大量异步加载的动态网页数据,这些数据是普通网络爬虫不能直接获取的。目前程序切片方法[21]存在算法复杂度高和精确度低等缺陷,而调用浏览器API的方法[15][16]存在爬取效率低的缺陷。本文提出了一种基于规则库的方法,将网页分类处理,可以获取动态网页和静态网页数据,避免了算法复杂度高和精确度低的缺陷,提高了爬取数据效率。(2)应对反网络爬虫方面:大多数公司会对其网站的数据进行保护,采用各种技术手段,以防止被肆意抓取数据。目前解决反爬虫的策略[13][18],不能应对爬取少量站点中的大量数据。本文设计了 IP代理池策略和类人爬取策略,这些策略采用随机更换代理IP的方法和模仿人访问目标站点的方法,可以绕过反爬虫机制。(3)集群稳定性方面:复杂的集群系统在长期运行中,可能会出现节点不能正常工作或者退出集群系统的现象。目前维护集群稳定性的策略[15][48]存在功能简单、丢失任务等缺陷。本文设计了心跳检测策略和记录丢失任务策略,通过定时监测节点发送的各种消息以及检测丢失的任务,解决节点不正常工作、掉线以及任务丢失等问题。(4)经济成本方面:本文设计的爬虫系统基于灵活订制的开源框架,可以自由删减不必要的功能,从而实现轻量级的系统,使得集群节点可以运行在树莓派(只有信用卡大小的微型电脑,其系统基于Linux)之上,为搭建集群降低了经济成本,以便该系统更实用于预算相对紧张的科研机构、以及中小型企业。最后,通过设置对比实验,本文设计的40个节点的分布式爬虫集群,相比参照实验的单机40个线程的爬虫,性能至少提高了 3-4倍,成本节省了 30%;在获取动态网页数据方面,设置了本文设计策略和参考文献策略[15]的对比试验,实验表明消耗时间减少了约39%;在系统稳定性和反爬虫方面,设置了测试实验,结果表明能够顺利完成大量的爬取任务,系统具有较强的健壮性。综合实验测试结果表明达到了预期效果,并且拥有较好的性能。

基于Scrapy的分布式网络爬虫系统设计与实现

这是一篇关于Scrapy框架,分布式网络爬虫,布隆过滤器,限速策略,任务调度的论文, 主要内容为随着互联网飞速的发展,网络上的信息呈指数级的增长,如此高的信息数量级也给用户获取信息带来了巨大的挑战。网络爬虫作为获取数据的工具常常被应用于搜索引擎当中,然而面向中小规模系统的网络爬虫由于其自身的局限性常常面临诸多问题,例如单机的网络爬虫程序抓取数据速度太慢,而大多数成熟的开源网络爬虫框架都未实现分布式化;互联网中的网页结构各不相同,单一的网络爬虫程序无法匹配所有类型的网页等等。因此设计并实现一个可定制性高的、简单稳定的、面向中小规模的高性能分布式爬虫具有很重要的意义,本文在Scrapy框架的基础上结合Redis数据库设计并实现了一个分布式网络爬虫系统,使用者通过简单的配置即能快速的抓取到其想要的数据。本文的主要工作包括以下几点:(1)重点研究了主从式架构下的任务调度算法,并在此基础上提出了一种动态反馈的任务调度策略。主节点在掌握从节点群中各个Scrapy爬虫实时状态的情况下使用该策略进行任务调度,并在爬虫节点发生变化时进行相应的任务调整,确保系统中的各个爬虫节点动态负载均衡。(2)针对传统的基于内存或磁盘的URL去重时导致的空间占用率过高的问题,本文结合布隆过滤器算法提出了一种海量URL去重策略,该策略利用多个哈希函数对原始的URL数据集进行空间映射压缩,降低其空间的占有率,并且在查询过程中,仅通过一次哈希即可判断某URL是否抓取过,大大提高了查询效率。(3)设计并实现了一种多节点下的爬虫限速策略,集群中的爬虫节点能根据用户设定的频率来访问对应的站点。其中基于IP的限速限定了同一台机器中的爬虫节点访问某站点的频率,基于爬虫类型的限速限定了同一种类型的爬虫节点访问某站点的频率。(4)对Scrapy框架中的调度器、数据采集以及数据管道组件重新定制开发,调度器的开发使其支持分布式采集,数据采集的开发使其支持带采集规则的数据抽取,数据管道的开发使其支持数据清洗、编码转换以及正文提取等功能。(5)基于Twisted框架设计并实现了一个异步任务响应的爬虫管理器,用户通过该管理器能方便的控制各节点上的Scrapy爬虫。

轻量级分布式虚假信息爬虫的设计与实现

这是一篇关于分布式网络爬虫,轻量级,决策树,虚假信息的论文, 主要内容为信息是每个社会人的自动需求,在社会中生存发展的人,只有通过获取信息才能够消除的不确定性。近年来,随着智能手机与智能设备的普及,人们能够更加简单快速的从互联网上获取信息,随之而来的问题是:人们获取信息总量在不断增加,但是有部分人并不能有效将信息群中的糟粕信息过滤掉。而在这些垃圾信息中,虚假信息与谣言信息首当其冲。谣言传播后的影响非常严重,其将导致社会公众伦理迷茫,激化社会公众的非理智情绪,使事件发展被人为的向恶化方向推进。因此,需要将虚假信息,谣言从大量的信息群中过滤分离开。虚假信息过滤系统则可以很好的解决这个问题。本系统实现的功能是对相关网络文本的爬取及其中虚假信息的过滤。系统原则上使用深度优先策略来对文本进行爬取,通过相关url爬取算法的优化以及系统的优化,从而增强爬取的效率。系统通过融入分布式集群设计,实现了针对本系统设计的分布式功能与特性,使其可以脱离对其他分布式框架的依赖,从而使本系统相对与一般分布式爬虫而言使用方式耦合度更低,从而实现了轻量级的效果。系统通过使用SpringBoot框架来进行主要开发,并且进行服务的注册及发现操作,负载均衡配置,以及保障微服务的安全性。通过调用分布式发布订阅消息系统进行不同语言之间数据的传递,从而保证系统的健壮性,减少系统中各个服务的耦合。本系统在研究了大量谣言检测相关工作的基础上,最后选择使用GBDT决策树来进行虚假信息的过滤工作。基于虚假信息的相关属性,本系统提取了作者信息,路径信息,时间信息,文本信息等几方面的属性,构建一个自适应的决策树模型,从而可以更加准确的对文本的虚假性进行判断。通过对整个系统的设计,优化调整以及大量实验得到的结果可以说明该系统可以提供文本的爬取及虚假内容的识别工作,该系统在现实的使用中也具有功能性,可靠性,可维护性等性质。

基于hadoop的分布式网络爬虫研究与实现

这是一篇关于云计算,分布式网络爬虫,Hadoop,Map/Reduce的论文, 主要内容为随着Internet技术的迅速发展,Web信息呈指数增长,数据呈现出数据量大,数据种类多,实时性强,价值大等特点,同时人们对于方便快捷高效地获得信息的需求也越来越强烈,这些需求促进了云计算的快速发展。在这样的背景下,谷歌、IBM、Apache和亚马逊等大型公司争相发展云计算,其中由Apache领导开发的Hadoop平台是一个非常优秀的开源云计算处理框架。本文所研究和开发的分布式网络爬虫就是在此框架的基础上设计和实现的。 本文在分析了分布式爬虫发展现状和研究了Hadoop平台的分布式文件系统(HDFS)和计算模型(Map/Reduce)相关理论和技术的基础上,给出了基于Hadoop的分布式网络爬虫系统的总体概要设计,包括分布式爬虫系统的框架设计、基本工作流程设计、功能模块划分。在概要设计的基础之上进行了系统的详细设计和实现,包括数据存储结构的实现、爬虫总体类结构和各个功能模块的实现。最后,对全文进行总结。本文实现了一个基于Hadoop的分布式网络爬虫系统,该系统采用Map/Reduce分布式计算框架和分布式文件系统解决了单机爬虫效率低、可扩展性差等问题,提高了网页数据爬取速度并扩大了爬取的规模。

面向社交媒体的网络爬虫的研究与优化

这是一篇关于分布式网络爬虫,布隆过滤器,网页去重,Hadoop的论文, 主要内容为随着网络技术的高速发展,社交媒体逐渐深入并影响着人们生活的各个方面,其产生的数据类型呈现数据量大,数据种类多,实时性强,高价值的特点,用户要抓取这些数据并研究需要用到网络爬虫技术。分布式网络爬虫为人们抓取大规模数据提供了技术支撑,Hadoop平台是由Apache领导开发的一个优质的开源大数据处理框架。本文所研究的面向社交媒体的分布式网络爬虫就是基于此框架设计和实现的,主要的工作内容包括以下几个方面:1.设计了一个面向社交媒体的分布式网络爬虫,以新浪微博为数据源,将抓取到的数据存储到HBase数据库之中。对面向社交媒体的爬虫系统进行了总体设计,主要是爬虫系统的概要设计、工作流程设计、功能模块划分,并对系统进行了详细的设计和实现。2.本文研究的主要目的是针对面向社交媒体用户群体多和产生的数据量大的特点,给出面向社交媒体的分布式爬虫系统的优化方案。通过布隆过滤器对抓取到的用户URL(Uniform Resource Locator)进行去重,再利用爬虫对去过重的URL集进行遍历从而实现社交媒体数据的获取。由于布隆过滤器本身存在误判的缺陷,从而改进算法,降低该算法的误判率并在Hadoop平台进行实现,应用到面向社交媒体的网络爬虫系统中。3.在实验室服务器上搭建8个节点的Hadoop集群,并对Hadoop集群进行相关的环境配置,本文设计的爬虫系统是在该机群上实现的。之后把获取到的社交媒体用户的URL在配置好的环境上进行测试,查验改进的布隆过滤器算法的去重效果,并测试面向社交媒体的网络爬虫系统的功能性。实验结果表明,本文改进的布隆过滤器算法的误判率明显降低,并且在分布式网络爬虫系统中网页去重模块拥有良好的去重效果,从而优化分布式网络爬虫系统提升数据抓取效率。

分布式网络爬虫的研究与实现

这是一篇关于分布式网络爬虫,URL去重算法,Hadoop的论文, 主要内容为在大数据时代,传统单机网络爬虫已经不适用于海量Web信息采集,因此研究分布式网络爬虫是必然的趋势。目前,国内外一些大型互联网企业已经开发出了大规模分布式网络爬虫,但是相关技术方案并不对外公开。开源界也存在一些持续更新的分布式网络爬虫项目,然而这些重量级项目往往存在着配置运行复杂、使用门槛高等问题。在此背景下,本文着重研究基于Hadoop的轻量级分布式网络爬虫,主要工作如下:(1)研究了网络爬虫系统中的重要算法—URL去重算法,分析了目前主流URL去重算法的优缺点。以保证系统轻量级为目标,将分布式技术和单机URL去重算法相结合,提出了一种基于MapReduce的分布式URL去重算法。该算法不仅解决了单机URL去重算法在处理海量数据时的低效问题,而且能够和本文设计的轻量级系统良好结合,使系统中负责URL去重工作的模块具备低耦合高内聚的特点,保证了系统运行的高效性。(2)利用Hadoop中两大核心组件一分布式文件系统HDFS和分布式编程模型MapReduce,设计了一种高效的轻量级分布式网络爬虫,并且制定了系统的详细设计方案,主要包括系统的架构设计、工作流程设计、分布式功能模块设计以及分布式存储设计等。(3)按照设计方案,使用JAVA语言对系统进行了实现,并将其部署在节点规模不一的若干Hadoop集群中进行相关测试,主要包括系统的功能测试以及性能测试。通过对测试数据进行记录分析,发现本文设计的分布式网络爬虫具备较强的大规模Web信息采集能力和良好的可扩展性。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://bishedaima.com/lunwen/46448.html

相关推荐

发表回复

登录后才能评论