基于Hadoop的网络聚焦爬虫抓取策略和解析方法研究
这是一篇关于Hadoop,爬行策略,网页解析,DOM树的论文, 主要内容为近年来互联网的发展速度越来越快,海量资源出现在网络上,以聚焦爬虫为核心的垂直搜索引擎因其针对性和准确性的优势更受用户欢迎。但现有聚焦爬虫网页抓取及解析方法还存在以下几个问题:(1)爬行策略中仅考虑链接结构或网页内容单方面因素对爬行策略的影响,且不关心链接文本之间的关系;(2)目前Web页面解析算法仅支持有限的类型,过于片面,解析效果不佳;(3)现有解析算法大都内嵌于爬虫系统中,拓展性不高,对于海量数据处理不具有适用性。Hadoop平台因其高可靠性和良好的扩展性,广泛应用于对海量数据的处理。基于Hadoop平台,研究聚焦爬虫的网页抓取及解析方法,具有较高的理论价值和实际意义。基于以上问题,本文进行以下三个方面的研究工作:(1)针对现有爬虫爬行算法效率不高的问题,本文分析了现有聚焦爬虫的URL链接分析模型,提出了基于网页内容分析和密度划分的聚焦爬虫策略。该策略在网页语义内容评价链接的基础上,采用基于密度划分的聚类方法,对已下载的链接进行聚类,根据链接之间的关联性来提高爬虫抓取网页的精准度。此外,该算法综合考虑待下载链接与已下载链接簇的相似度,对网页内容及链接锚文本进行相似度分析,有效提高爬虫工作效率。(2)针对现有网页解析算法准确度不高且对海量数据处理的适用性低,为进一步提高爬虫运行的速度,本文分析Web网页内容中目标文本与噪音文本所在标签路径的特征,结合Map/Reduce模型并利用分层合并降度的思想,提出了一种新的基于DOM树和Map/Reduce的网页解析算法。该算法不仅能提高其目标文本解析准确度,更大幅度的提升其处理速度。(3)在实验部分,对以上两种算法进行实验测试。在第一个算法的实验中,比较抓取数据以确定算法中权值参数?、?的最佳取值,通过其与Best-First Search算法和Shark-Search算法的纵向对比验证了该算法的准确率、有效性及其自身学习能力;在第二个算法实验中,首先对两个数据集进行测试并观察其解析效果,然后对比其在Hadoop环境与传统多线程环境中消耗的时间,验证了该算法精准的解析效果及其对大数据处理模式的适用性。
面向食品接触材料安全的爬虫系统设计与实现
这是一篇关于主题爬虫,概念背景图,初始种子选取,爬行策略的论文, 主要内容为近几年,因食品接触材料含有有害物质而引发的安全事件,屡屡敲击着公众敏感的神经,采用主题爬虫技术收集网络中的有关信息以对食品接触材料安全网络舆情进行监测有着十分重要的意义。本文依据《食品接触材料及制品用添加剂分类管理系统》实际课题,重点研究设计了面向特定主题的爬虫系统。通过阅读大量文献资料,对目前主题爬虫中相关技术的研究进行分析总结,发现传统主题爬虫的研究中存在两个主要的问题:1)有关初始种子选取的研究尚缺;2)主题爬行策略的准确率和召回率依然有待提升。针对上述存在的问题,本文提出新的解决方案,并在此基础上对系统的各个关键模块进行设计实现。最后,通过相关实验以及系统的运行结果验证了本文所提技术的有效性。论文主要的贡献如下:(1)提出了基于HITS算法的初始种子选取算法。本文利用HITS算法计算网页权威度和中心度,然后综合两者定义了候选种子的质量度量公式,选取高质量的链接作为种子。但是原HITS算法易出现“主题漂移”问题,本文改进了该算法中的基础网页集扩展过程,剔除无效链接并对链接进行主题价值评价,使得扩展中得到的链接都是较好的,在此基础上得到的计算结果会比较可信。本文最终的系统采集结果证明了该算法选取的种子比较有效。(2)针对传统的基于概念背景图的主题爬虫的不足,提出了基于综合价值的概念背景图的主题爬行策略。首先,依据形式概念分析相关理论,从主题背景中抽取概念构建格模型,再根据概念间的语义相似度将此概念格转换成概念背景图,用于存储用户查询意向。同时,本文改进了虚拟形式概念匹配算法,更快更准确的计算页面主题相似度,并综合父网页,锚文本,链接上下文以及URL,定义链接主题价值预测公式,用于决定链接的访问优先级。最后实验结果表明该策略比传统的基于概念背景图的主题爬虫具有优势,爬行效率和准确率都有显著提升。(3)使用Java语言基于WebMagic框架设计实现了爬虫系统。本文对爬虫系统的各个关键模块进行设计,主要包括初始种子选取模块,概念背景图构建模块,主题爬行模块等,并给出数据库设计方案。本文设计的爬虫系统结构具有通用性,创新性的将初始种子选取,主题基准构建与主题爬行相集成,大大减少人工操作。最后,对系统的运行结果进行评价,显示本文提出的策略有效提高了主题爬虫的效率和准确度,并且成功应用于实际项目中。
垂直搜索引擎中主题爬虫搜索策略研究与实现
这是一篇关于垂直搜索引擎,主题爬虫,文本内容分析,链接分析,爬行策略的论文, 主要内容为随着互联网的发展,Web信息资源与日俱增,搜索引擎成为人们获取网络信息资源的重要工具,然而通用搜索引擎在追求检索信息最大覆盖率的同时,降低了查找到的信息的准确度,所以目前存在的各种综合的搜索引擎越来越不能满足用户对信息检索服务的“专、精”等方面的需求,面向主题查询的垂直搜索引擎成为搜索引擎领域的一个新的发展方向。主题爬虫作为垂直搜索引擎的重要的组成部分,它的目标是尽可能地抓取与指定主题相关的网页,而过滤掉与主题无关的页面,其性能的好坏是影响信息检索的质量和效率的重要因素,所以设计一个高性能的主题爬虫成为垂直搜索引擎研究的重要课题之一。 论文的主要研究对象是作为垂直搜索引擎的重要组成部分的主题爬虫技术。首先概述了垂直搜索引擎和主题爬虫的研究现状、工作原理,指出主题爬虫相较于一般的网络爬虫在信息检索方面的优势,然后分析了主题爬虫的搜索策略,讨论主题爬虫预测主题的准确性和重要性。论文的研究工作围绕着网页中存在的文本内容和超链接信息对主题爬虫搜索策略的影响进行展开。 论文首先详细介绍了主题信息的表示、关键词的提取及其权重的计算和主题相关度算法。分析了关键词权重计算方法TF-IDF算法的不足之处并提出了改进方案。对于页面的主题相关度的计算,我们采用空间向量模型进行计算。 针对网页中的超链接优先级的判断问题,我们在传统的HITS算法的基础上,加入主题特征的影响因素,提出改进的HITS算法。对每个网页,我们利用三个向量(中心向量、权威向量、文本内容向量)来计算其主题相关度,尽量避免出现主题漂移现象,并讨论了网页中心值和权威值的计算公式。 现有的基于文本内容的搜索策略和基于链接分析的搜索策略都存在价值评价标准单一的缺点,本文将这两种搜索策略结合,提出了一种综合考虑的爬行策略,这种策略会在主题网络爬虫的不同的爬行阶段选择适合的最优的搜索策略。文章最后实现了基于综合爬行策略的主题爬虫系统。
垂直搜索引擎中主题爬虫搜索策略研究与实现
这是一篇关于垂直搜索引擎,主题爬虫,文本内容分析,链接分析,爬行策略的论文, 主要内容为随着互联网的发展,Web信息资源与日俱增,搜索引擎成为人们获取网络信息资源的重要工具,然而通用搜索引擎在追求检索信息最大覆盖率的同时,降低了查找到的信息的准确度,所以目前存在的各种综合的搜索引擎越来越不能满足用户对信息检索服务的“专、精”等方面的需求,面向主题查询的垂直搜索引擎成为搜索引擎领域的一个新的发展方向。主题爬虫作为垂直搜索引擎的重要的组成部分,它的目标是尽可能地抓取与指定主题相关的网页,而过滤掉与主题无关的页面,其性能的好坏是影响信息检索的质量和效率的重要因素,所以设计一个高性能的主题爬虫成为垂直搜索引擎研究的重要课题之一。 论文的主要研究对象是作为垂直搜索引擎的重要组成部分的主题爬虫技术。首先概述了垂直搜索引擎和主题爬虫的研究现状、工作原理,指出主题爬虫相较于一般的网络爬虫在信息检索方面的优势,然后分析了主题爬虫的搜索策略,讨论主题爬虫预测主题的准确性和重要性。论文的研究工作围绕着网页中存在的文本内容和超链接信息对主题爬虫搜索策略的影响进行展开。 论文首先详细介绍了主题信息的表示、关键词的提取及其权重的计算和主题相关度算法。分析了关键词权重计算方法TF-IDF算法的不足之处并提出了改进方案。对于页面的主题相关度的计算,我们采用空间向量模型进行计算。 针对网页中的超链接优先级的判断问题,我们在传统的HITS算法的基础上,加入主题特征的影响因素,提出改进的HITS算法。对每个网页,我们利用三个向量(中心向量、权威向量、文本内容向量)来计算其主题相关度,尽量避免出现主题漂移现象,并讨论了网页中心值和权威值的计算公式。 现有的基于文本内容的搜索策略和基于链接分析的搜索策略都存在价值评价标准单一的缺点,本文将这两种搜索策略结合,提出了一种综合考虑的爬行策略,这种策略会在主题网络爬虫的不同的爬行阶段选择适合的最优的搜索策略。文章最后实现了基于综合爬行策略的主题爬虫系统。
基于分布式的商品信息网络爬虫系统的设计与实现
这是一篇关于商品信息爬虫,分布式,爬行策略,网页解析的论文, 主要内容为自1989年World Wide Web诞生以来,电子商务伴随着互联网的普及而获得高速发展,它不仅有力地推动经济全球化,还极大地改变了人们的生活方式。在电子商务网站发展过程中,不仅商品种类丰富化,网购形式也呈现出多样化,如B2C、C2C以及团购、尾品。在移动终端多样化的背景下,面对众多选择,如何帮助、引导用户购物,是一个值得深入研究的课题。设计实现一个分布式商品信息爬虫系统可以爬取各购物网站的商品信息,进而为以图搜商品的导购网站或比价网站提供商品数据,从而达到帮助用户购物的目的。 首先介绍了网络爬虫涉及的相关技术,然后在此基础上结合购物网站以及商品网页的特点,重点研究了爬行策略、网页解析和爬虫系统稳定性这三个方面。在爬行策略上,对比分析了现有爬行策略的优缺点,提出一种基于广度优先的改进爬行策略,通过对URL分类并赋予权值,将原有的URL队列替换为优先级队列,使得爬虫爬取目标更有针对性,以此提高爬行效率。对于网页解析,针对网页使用JavaScript技术导致部分商品信息无法提取,提出两种解决方案。一种是通过爬取URL对应的移动端网页获取商品信息,另一种是通过模拟浏览器访问网页,获取网页上包括JavaScript加载的数据后再做进一步解析,从而获取到完整的商品信息。针对爬虫运行在复杂的网络环境中这一情况,系统从线程检测重启、中心节点信息备份以及爬虫增量爬行这三个方面提高稳定性和容灾性。 通过对分布式商品信息网络爬虫系统运行测试,验证了系统的分布式架构的可行性和高效性。测试结果显示,对各购物网站目标商品的爬取正确率均在99%以上,改进的爬行策略对爬行效率的提升也得到验证。
面向政务公开网站的智能化网络信息采集系统的研究与实现
这是一篇关于信息采集,爬虫系统,爬行策略,网页信息抽取的论文, 主要内容为在信息爆炸的时代,从互联网中获取与领域或主题相关的海量文本数据已成为一项必要的任务。在领域信息中,政府公告类信息是非常值得关注的内容。但由于政府信息技术建设早期缺乏统一的规划和管理,各地政务公开网站均自行独立开发建设,其网站架构和后端数据具有不一致性。这导致面向政务公开网站的信息采集应用需要适配多种Web系统,而目前的网站数据采集和网页信息抽取的公开成果主要针对于静态页面,针对动态页面的有效采集和抽取还需要人工编写采集抽取规则,时间和人力的成本是巨大的。针对上述问题,本文提出适用于政务公开网站的自动遍历方法和基于启发式规则的网页信息抽取算法,并以此为基础,设计和实现了智能化的网络信息采集系统。本文的主要工作包括:(1)针对爬取系统无法同时自动化爬取静态网页和动态网页的问题,本文提出适用于政务公开网站的自动遍历方法。本文根据采集深度将网页中的有效信息分层,关注到了分页按钮在自动化采集流程中的重要性,并制作了分页按钮数据集并进行了特征设计,提出了基于XGBoost的分页按钮智能定位方法,该方法对网站页面中的分页按钮识别准确率达到99.85%。经过实验验证,基于该方法提出的爬行策略能够适配多种web系统,采集效率胜过低代码采集工具。(2)针对过往对含有大量相似节点的网页列表抽取需要同时依赖网页HTML和网页视觉信息导致算法时间复杂度较高的问题,本文提出了基于文本特征和路径特征的网页列表信息提取方法,该方法通过将网页HTML源代码解析为树结构,结合语义化的节点属性对树进行剪枝,并基于节点的文本特征和路径特征进行聚类并提取信息。经过实验验证,本文提出的列表页抽取算法在政务平台数据集上抽取效果可以达到97.46%,平均抽取时间为0.021秒。(3)基于上述工作,实现了智能化的网络信息采集系统。系统采用B/S架构,使用多种技术保证系统的易用性和可扩展性。系统能够在全流程无人工参与的情况下实现对多来源的网站进行自动化的采集与信息存储。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计驿站 ,原文地址:https://bishedaima.com/lunwen/47446.html