基于Hadoop分布式网络爬虫系统的优化研究
这是一篇关于Hadoop,网络爬虫,任务调度,URL去重的论文, 主要内容为近些年互联网上的网页成指数级爆增,在这样一个大数据时代的背景下,由于单机爬虫自身有限的计算和存储的能力已经远远不能满足对数据的抓取,随着分布式技术平台的崛起,为这一棘手的难题带来了福音。将网络爬虫系统与分布式平台融为一体可以完美的解决大规模网页的抓取与存储等一系列困难。所以在大数据时代的背景下,对于Hadoop平台与爬虫系统结合的分布式爬虫系统的研究非常有价值。这里对分布式爬虫领域里非常关键的算法(任务调度算法与URL去重算法)深入分析,发现它们的缺陷,然后在分布式平台中对其完善和优化。任务调度算法是分布式爬虫中一个很关键的算法,假如任务分配不当,会严重的降低集群的爬取效率。第三章对比较优秀的基于加权轮转的任务调度算法做了深入分析,提出了一种带反馈的动态的加权轮转任务调度算法,在充分发挥加权轮转任务调度优点的基础上克服了其固定权重所带来的负面影响,是系统达到一个很好的负载均衡。URL去重算法是严重制约爬取效率的一个算法,如果去重算法设计的不好,就会出现连续爬相同的网页,还有可能陷入死循环。基于Bloom Filter的去重采用的不是存储元素本身,节约了大量的存储空间,这在大数据的今天尤为重要,并且其插入和查询元素复杂度非常低,且其里面的位数组数据结构也非常容易实现。但有一点它存在误判率问题。第四章对其深入分析,找出误判率的本质所在,结合爬取的URL的特点对标准Bloom Filter进行了改进,提出了MBF过滤器,并将其运用于Hadoop分布式爬虫系统里,在充分发挥了Bloom Filter的优点的同时有效的降低了Bloom Filter带来的误判率问题。最后基于第三章第四章改进的两个关键算法对分布式网络爬虫系统进行了设计与实现。通过需求分析、流程分析、系统的概要设计(包括物理框架设计和逻辑框架设计)、模块设计、数据存储结构的设计,对分布式爬虫系统进行了详细的实现,最后对分布式爬虫系统进行了一些测试。
分布式爬虫下基于用户评论的商品标签提取
这是一篇关于分布式爬虫,URL去重,词向量,TF-IDF,依存语法,标签提取,情感分析的论文, 主要内容为随着网络新时代的到来,各种智能终端的不断普及,网上购物正越来越成为现代人们主流的购物方式。在消费者进行网络购物的同时,也产生了海量的评论数据,而这些评论数据中蕴含着巨大的挖掘价值:对商品厂家来说,评论数据能够直观地反应出用户对商品特性的评价,能够根据用户的喜好调整产品特性,从而更好地发展自身商品;对电商平台来说,可以根据评论数据提取商品标签,提高用户的购物体验,还可以根据用户兴趣进行相关推荐;对用户自身来说,评论数据是用户了解商品特征的主要信息,用户可以参考评论数据选择自己想要的商品。对用户评论数据进行挖掘,提取出商品标签,可以广泛应用于商品推荐、个性化搜索等场景,有利于商品厂家分析产品数据,有利于提高用户的购物体验,有利于增加平台用户流量。因此,对用户评论数据挖掘进行研究,可以更加有效地提高商品标签的准确性和全面性,在现实生活中,具有十分巨大的价值和深远的意义。据此,本文提出了分布式爬虫下基于用户评论的商品标签提取系统。本文首先,针对海量的用户评论数据,搭建基于改进的布隆过滤器的分布式爬虫系统,对用户评论数据进行高效地抓取和存储。然后结合改进的TF-IDF算法和依存语法对用户评论数据进行特征词提取,提取出商品(对象词,评价词)的特征词对。最后对提取出的特征词对进行聚类和情感划分处理,最终形成商品属性标签和用户情感标签的综合标签。本文的主要创新如下:1、设计出基于改进的布隆过滤器的URL去重算法的分布式爬虫框架。通过增加布隆过滤器维度的方法来有效地降低误判率,提高分布式爬虫系统的效率。2、采用改进的TD-IDF算法+依存语法分析的方法对海量的用户评论进行特征词对提取。通过对IDF权重进行缓冲并加入离散度的方法对TF-IDF算法进行改进,并结合依存语法分析,提出一种对用户评论数据进行特征词提取的方法,该方法更适用于对评论数据的特征词提取。3、将筛选出的特征词向量化为计算机能够处理的表达形式,确定距离计算函数,设计出一种K-means+AP的层次化聚类模型,对特征词进行标签化处理。
深度可定制的工具化爬虫系统的设计与实现
这是一篇关于通用爬虫,解析模板,URL去重,反爬技术,监控告警的论文, 主要内容为如今互联网正在快速发展,互联网中的信息也随之爆发式增长、内容也随之丰富。信息的过载使得人工获取、处理数据的难度逐渐增加。因此如何快速、有效地做数据采集以及从海量数据中抽取有用信息是一个迫切需要解决的问题。爬虫技术有效地帮助了如今的互联网从业者实时、准确地采集数据。然而,爬虫的编写也是一项繁琐、复杂的任务,尤其是当你需要抓取众多结构相似或迥异的网站或App时,如果针对每一个网站都编写一个有针对性的爬虫,那么不仅使得爬虫的编写沦为繁重的体力活,也加剧了后期修改和维护的成本。除此之外,爬虫经验不那么丰富的新人可能并不能很顺利地编写和接手别人的爬虫程序。所以,本文设计和实现了一个通用的工具化爬虫系统,它提供配置文件的方式来让爬虫开发者快速、灵活地定制针对自己想抓取的目标网站的爬虫,而不需要编写繁琐的程序,使得爬虫的编写和维护变得简单。本文所设计的爬虫不是针对特定网站编写的,而是将爬虫工具化、通用化,使得用户使用配置文件的方式和少量的抓取逻辑代码即可完成对目标网站的抓取。为了实现让用户编写爬虫变得简单,本系统对用户隐藏了爬虫的各种复杂模块,具有高度抽象的架构设计。通过对爬虫技术和相关算法的调研,本爬虫系统在Scrapy框架的基础上进行二次开发,设计和实现了支撑性模块来保证爬虫的健壮性、高效性,并对现有的相关技术实现做出一些改进。最后通过系统测试验证了本爬虫系统的稳定性和高效性,并对本文进行了总结与展望。
面向建材信息的网络爬虫系统的设计与实现
这是一篇关于网络爬虫,管理系统,正则表达式解析模板,URL去重的论文, 主要内容为随着网络技术的发展,电子商务发展迅猛,然而建材类电子商务一直发展较为缓慢,是电子商务的一片蓝海。很多公司也发现了这一商机,并通过各类建材电子商务网站瓜分市场份额。但是,这些电商网站往往覆盖地区、产品种类有限,难以达到其他品类成熟电商的规模,对国内建材类电子商务的现状影响不大。市场急需一个能够覆盖全国各地区、网罗各类产品的网站。然而各个公司各自为战,很难达成共识共享资源。基于上述背景,本文分析、设计并实现了网络爬虫系统,该系统将Internet上诸多同类建材信息网站的关键信息爬取下来,并整合发布在本公司自己的网站上。为建筑企业和建材供应商提供及时、全面、真实的信息服务,从而为建筑企业与建材供应商创造双赢价值。 本文介绍了爬虫系统的基本工作原理和相关理论知识,然后对系统进行了需求分析,提出系统需求,并对系统进行功能性需求分析、非功能性需求分析和可行性分析。最后在系统需求分析的基础上,提出了系统的总体设计方案,明确了系统的总体流程,对系统各个模块进行设计。本文的爬虫系统不仅能够抓取静态页面的内容,对于JS (JavaScript)动态加载的页面也能够通过JS解释引擎Rhino实现页面抓取功能,并采用正则表达式编写页面的解析模板完成对页面关键信息的抽取。针对图片中保存的某些关键信息,本文利用OCR (Optical Character Recognition)图片识别引擎Tesseract实现对这类信息的识别。在页面抓取过程中,为了提高域名解析的速度,本文采用了域名解析缓存。为了提高爬虫系统抓取数据的质量,避免重复抓取,本文采用布隆过滤器对URL (Uniform Resource Locator)进行去重。本文还实现了网络爬虫管理系统,用以对爬虫系统工作的各个环节进行监控和管理。 本文设计并实现的面向建材信息的网络爬虫系统能够满足用户的基本需求,该系统己在广联达软件公司上线运行,能够成功抓取建材类供求信息,并将所得数据存储在Mongo数据库中,目前已抓取超过2亿条数据记录。
基于Hadoop分布式网络爬虫系统的优化研究
这是一篇关于Hadoop,网络爬虫,任务调度,URL去重的论文, 主要内容为近些年互联网上的网页成指数级爆增,在这样一个大数据时代的背景下,由于单机爬虫自身有限的计算和存储的能力已经远远不能满足对数据的抓取,随着分布式技术平台的崛起,为这一棘手的难题带来了福音。将网络爬虫系统与分布式平台融为一体可以完美的解决大规模网页的抓取与存储等一系列困难。所以在大数据时代的背景下,对于Hadoop平台与爬虫系统结合的分布式爬虫系统的研究非常有价值。这里对分布式爬虫领域里非常关键的算法(任务调度算法与URL去重算法)深入分析,发现它们的缺陷,然后在分布式平台中对其完善和优化。任务调度算法是分布式爬虫中一个很关键的算法,假如任务分配不当,会严重的降低集群的爬取效率。第三章对比较优秀的基于加权轮转的任务调度算法做了深入分析,提出了一种带反馈的动态的加权轮转任务调度算法,在充分发挥加权轮转任务调度优点的基础上克服了其固定权重所带来的负面影响,是系统达到一个很好的负载均衡。URL去重算法是严重制约爬取效率的一个算法,如果去重算法设计的不好,就会出现连续爬相同的网页,还有可能陷入死循环。基于Bloom Filter的去重采用的不是存储元素本身,节约了大量的存储空间,这在大数据的今天尤为重要,并且其插入和查询元素复杂度非常低,且其里面的位数组数据结构也非常容易实现。但有一点它存在误判率问题。第四章对其深入分析,找出误判率的本质所在,结合爬取的URL的特点对标准Bloom Filter进行了改进,提出了MBF过滤器,并将其运用于Hadoop分布式爬虫系统里,在充分发挥了Bloom Filter的优点的同时有效的降低了Bloom Filter带来的误判率问题。最后基于第三章第四章改进的两个关键算法对分布式网络爬虫系统进行了设计与实现。通过需求分析、流程分析、系统的概要设计(包括物理框架设计和逻辑框架设计)、模块设计、数据存储结构的设计,对分布式爬虫系统进行了详细的实现,最后对分布式爬虫系统进行了一些测试。
分布式爬虫下基于用户评论的商品标签提取
这是一篇关于分布式爬虫,URL去重,词向量,TF-IDF,依存语法,标签提取,情感分析的论文, 主要内容为随着网络新时代的到来,各种智能终端的不断普及,网上购物正越来越成为现代人们主流的购物方式。在消费者进行网络购物的同时,也产生了海量的评论数据,而这些评论数据中蕴含着巨大的挖掘价值:对商品厂家来说,评论数据能够直观地反应出用户对商品特性的评价,能够根据用户的喜好调整产品特性,从而更好地发展自身商品;对电商平台来说,可以根据评论数据提取商品标签,提高用户的购物体验,还可以根据用户兴趣进行相关推荐;对用户自身来说,评论数据是用户了解商品特征的主要信息,用户可以参考评论数据选择自己想要的商品。对用户评论数据进行挖掘,提取出商品标签,可以广泛应用于商品推荐、个性化搜索等场景,有利于商品厂家分析产品数据,有利于提高用户的购物体验,有利于增加平台用户流量。因此,对用户评论数据挖掘进行研究,可以更加有效地提高商品标签的准确性和全面性,在现实生活中,具有十分巨大的价值和深远的意义。据此,本文提出了分布式爬虫下基于用户评论的商品标签提取系统。本文首先,针对海量的用户评论数据,搭建基于改进的布隆过滤器的分布式爬虫系统,对用户评论数据进行高效地抓取和存储。然后结合改进的TF-IDF算法和依存语法对用户评论数据进行特征词提取,提取出商品(对象词,评价词)的特征词对。最后对提取出的特征词对进行聚类和情感划分处理,最终形成商品属性标签和用户情感标签的综合标签。本文的主要创新如下:1、设计出基于改进的布隆过滤器的URL去重算法的分布式爬虫框架。通过增加布隆过滤器维度的方法来有效地降低误判率,提高分布式爬虫系统的效率。2、采用改进的TD-IDF算法+依存语法分析的方法对海量的用户评论进行特征词对提取。通过对IDF权重进行缓冲并加入离散度的方法对TF-IDF算法进行改进,并结合依存语法分析,提出一种对用户评论数据进行特征词提取的方法,该方法更适用于对评论数据的特征词提取。3、将筛选出的特征词向量化为计算机能够处理的表达形式,确定距离计算函数,设计出一种K-means+AP的层次化聚类模型,对特征词进行标签化处理。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工厂 ,原文地址:https://bishedaima.com/lunwen/56103.html