基于分布式的网络爬虫系统的研究与实现
这是一篇关于分布式爬取,布隆过滤器,流计算,批处理,Storm框架的论文, 主要内容为随着大数据时代的到来,数据的价值越来越受到人们的重视。海量的网络新闻数据具有巨大的商业价值和研究价值,可以通过网络爬虫爬取网络新闻数据。传统的单机网络爬虫不能爬取每天新增的大量网络新闻。现有的爬虫框架大多数不支持分布式爬取,已有的分布式爬虫框架通常是为搜索引擎设计的,难以修改框架满足特定的需求。因此本文设计并实现了一个基于分布式的网络爬虫系统,用于爬取新闻网站上的新闻数据。本文的主要工作如下:(1)结合Storm流计算框架和Scrapy爬虫框架,设计并实现分布式网络爬虫系统。Scrapy爬虫框架不支持分布式爬取,本文在Storm分布式平台上运行Scrapy爬虫进程,实现网络爬虫的分布式爬取。Trident是对Storm的高级抽象,不仅支持以数据流的方式处理数据,而且支持以批处理的方式处理数据。本文采用Trident框架实现Storm分布式平台,以流处理和批处理的方式处理URL。(2)提出基于多布隆过滤器的URL去重算法。布隆过滤器是由一个很长的二进制位数组和一系列随机均匀分布的哈希函数组成,可以检测一个元素是否存在于集合中。布隆过滤器具有误识别率,将不属于集合的元素判定为属于。本文通过使用多个布隆过滤器降低误识别率,对URL进行去重处理。通过测试表明误识别率随着本算法使用的布隆过滤器个数的增加而下降。(3)提出基于优先级的广度优先爬行策略。广度优先爬行策略将新闻网站上的网页分为不同的层次,爬取完同一层的所有网页后,才爬取下一层的网页。该策略实现比较简单,主要采用一个先进先出(FIFO)结构的URL队列。本文将URL的类型分为三种,对不同类型的URL设定不同的优先级,设计一个同时具有优先级和先进先出性质的URL队列,实现基于优先级的广度优先爬行策略。(4)以递归爬取方式提取非结构化数据。提取非结构化数据的技术有三种:正则表达式,BeautifulSoup和Xpath表达式。爬取完整的评论数据通常需要发送若干个HTTP请求,本文以递归爬取方式爬取到完整的评论数据,将评论数据作为新闻数据的一个数组类型字段,最后将新闻数据以文档的形式保存到MongoDB数据库中。最后,本文对分布式网络爬虫系统进行了功能测试和性能测试,验证了通过增加爬虫数,可以提高网络爬虫的爬取速度。
基于批处理的卷积神经网络推断优化方法研究
这是一篇关于CPU,卷积神经网络,推断加速,批处理,访存优化的论文, 主要内容为卷积神经网络作为人工智能技术的重要组成部分,因其出色的特征捕获能力被广泛应用于图像处理领域。由于无处不在的CPU设备和其独特的灵活性,以及现实场景部署CNN模型等限制,使得在CPU设备中部署CNN模型变得更加广泛普遍。然而CNN巨大的参数量和计算量使推断过程拥有超高的访存次数和计算次数,导致推断延时较大,难以满足应用要求。因此,本文以降低访存延时和提高计算并行度为切入点,采用批量处理的思路,加速CNN的整体推断过程。针对CNN频繁访存导致访存延时较长的问题,本文结合未深入研究的Layerwise策略提出了一种基于Layer-wise批处理的CNN推断优化方法,使批量数据之间重复使用权重,进一步提升了数据局部性,减少了Cache miss的次数和访存延时。首先,本文将Layer-wise批处理策略应用到CNN的卷积层、全连接层和池化层,其中根据卷积层的三种通用卷积算法的不同特点分别提出了基于Layer-wise的卷积方法(LW-NCOV、LW-ING、LW-IRG);其次,根据最佳通用卷积算法在Layer-wise策略下写内存频繁,容易导致Cache中有用数据被置换出去的问题,提出了最适合Layer-wise批处理的卷积方法ISC,能够在计算中有效降低Cache miss次数。实验结果表明,相比传统的Image-wise方式,Alex Net使用LW-IRG方法在不同批量数据推断时速度提升比例为13.17%-35.3%;相比LW-IRG方法,Alex Net使用LW-ISC方法在不同批量数据推断时速度提升比例为7.6%-33.81%;此外全连接层、池化层相比传统推断方式最佳速度提升量为41.89%和21.15%。针对CNN巨大的计算量和云端应用场景下推断请求到达时间不确定的现象,以及单个样本推断请求无法充分利用CPU多线程并行的缺陷,本文提出了一种分层批处理的推断方法LBCI。该方法针对网络运行时出现新推断请求的情况,根据是否超出网络中最先推断样本的最佳运行时间(OPT_TIME)来判断最新的样本推断请求是否加入网络共同推断,因此充分利用CPU的并行计算资源,提高计算速度。首先提出了缓冲区数据探测模块,实现推断和接收新数据任务同时执行;其次,提出了BD推断时间预测方法,以此确定调度数据的个数。实验结果表明,在单样本推断场景中,Alex Net在不同请求流速推断的情况下,LBCI比传统方式减少了10.43%-52.43%的延迟时间,提升了9.56%-20.3%的吞吐量,并且对高流量情况违反OPT_TIME的频率也有所改善;在多样本推断场景中,Alex Net在不同请求数量推断的情况下,LBCI比传统顺序方式的推断时间提升4.32%-22.76%。
非结构化数据统一存储平台的设计与实现
这是一篇关于非结构化数据,统一存储,批处理的论文, 主要内容为当今互联网上的数据正在呈现出迅速增长的发展趋势,这种趋势不仅仅体现在数据的数量上,同时也体现在数据的种类上。从传统的文本数据到如今的网络文档、图片、音频以及视频,互联网数据的主流逐渐从结构化数据转变为非结构数据,而这些日益增长并种类繁多的非结构化数据,为互联网数据的存储管理带来了新的挑战。 本文首先研究了针对各类海量非结构化数据的存储问题所提出的解决方案,分析出各存储系统所存在的问题,从而总结出实现非结构化数据统一存储的关键问题。 然后,针对具有海量、异构、关联等特征的非结构化数据的存储问题,提出了非结构化数据统一存储管理平台D-Ocean Repository,通过解决元数据管理、统一数据接口、异构存储以及数据的高可用性与一致性等关键问题,融合了HDFS, HBase, MySQL, XMLDB等各类存储设施,并通过异构存储设施的选择机制,解决各类数据的高效混合存储问题。 同时,基于统一存储平台,本文设计并实现了一个非结构数据的批处理框架,利用数据统一存储的特性,解决了各类非结构化数据的统一处理问题,并基于MapReduce架构实现了数据的高效并行处理,使得计算资源与数据存储得到有机结合。 最后,本文还实现了一个使用D-Ocean系统作为后台数据管理的互联网应用——互联网跨媒体新闻检索系统,用以证明非结构化数据统一存储平台的实用性,有助于未来面向更多非结构化数据的互联网应用实现。
基于批处理的卷积神经网络推断优化方法研究
这是一篇关于CPU,卷积神经网络,推断加速,批处理,访存优化的论文, 主要内容为卷积神经网络作为人工智能技术的重要组成部分,因其出色的特征捕获能力被广泛应用于图像处理领域。由于无处不在的CPU设备和其独特的灵活性,以及现实场景部署CNN模型等限制,使得在CPU设备中部署CNN模型变得更加广泛普遍。然而CNN巨大的参数量和计算量使推断过程拥有超高的访存次数和计算次数,导致推断延时较大,难以满足应用要求。因此,本文以降低访存延时和提高计算并行度为切入点,采用批量处理的思路,加速CNN的整体推断过程。针对CNN频繁访存导致访存延时较长的问题,本文结合未深入研究的Layerwise策略提出了一种基于Layer-wise批处理的CNN推断优化方法,使批量数据之间重复使用权重,进一步提升了数据局部性,减少了Cache miss的次数和访存延时。首先,本文将Layer-wise批处理策略应用到CNN的卷积层、全连接层和池化层,其中根据卷积层的三种通用卷积算法的不同特点分别提出了基于Layer-wise的卷积方法(LW-NCOV、LW-ING、LW-IRG);其次,根据最佳通用卷积算法在Layer-wise策略下写内存频繁,容易导致Cache中有用数据被置换出去的问题,提出了最适合Layer-wise批处理的卷积方法ISC,能够在计算中有效降低Cache miss次数。实验结果表明,相比传统的Image-wise方式,Alex Net使用LW-IRG方法在不同批量数据推断时速度提升比例为13.17%-35.3%;相比LW-IRG方法,Alex Net使用LW-ISC方法在不同批量数据推断时速度提升比例为7.6%-33.81%;此外全连接层、池化层相比传统推断方式最佳速度提升量为41.89%和21.15%。针对CNN巨大的计算量和云端应用场景下推断请求到达时间不确定的现象,以及单个样本推断请求无法充分利用CPU多线程并行的缺陷,本文提出了一种分层批处理的推断方法LBCI。该方法针对网络运行时出现新推断请求的情况,根据是否超出网络中最先推断样本的最佳运行时间(OPT_TIME)来判断最新的样本推断请求是否加入网络共同推断,因此充分利用CPU的并行计算资源,提高计算速度。首先提出了缓冲区数据探测模块,实现推断和接收新数据任务同时执行;其次,提出了BD推断时间预测方法,以此确定调度数据的个数。实验结果表明,在单样本推断场景中,Alex Net在不同请求流速推断的情况下,LBCI比传统方式减少了10.43%-52.43%的延迟时间,提升了9.56%-20.3%的吞吐量,并且对高流量情况违反OPT_TIME的频率也有所改善;在多样本推断场景中,Alex Net在不同请求数量推断的情况下,LBCI比传统顺序方式的推断时间提升4.32%-22.76%。
基于批处理的卷积神经网络推断优化方法研究
这是一篇关于CPU,卷积神经网络,推断加速,批处理,访存优化的论文, 主要内容为卷积神经网络作为人工智能技术的重要组成部分,因其出色的特征捕获能力被广泛应用于图像处理领域。由于无处不在的CPU设备和其独特的灵活性,以及现实场景部署CNN模型等限制,使得在CPU设备中部署CNN模型变得更加广泛普遍。然而CNN巨大的参数量和计算量使推断过程拥有超高的访存次数和计算次数,导致推断延时较大,难以满足应用要求。因此,本文以降低访存延时和提高计算并行度为切入点,采用批量处理的思路,加速CNN的整体推断过程。针对CNN频繁访存导致访存延时较长的问题,本文结合未深入研究的Layerwise策略提出了一种基于Layer-wise批处理的CNN推断优化方法,使批量数据之间重复使用权重,进一步提升了数据局部性,减少了Cache miss的次数和访存延时。首先,本文将Layer-wise批处理策略应用到CNN的卷积层、全连接层和池化层,其中根据卷积层的三种通用卷积算法的不同特点分别提出了基于Layer-wise的卷积方法(LW-NCOV、LW-ING、LW-IRG);其次,根据最佳通用卷积算法在Layer-wise策略下写内存频繁,容易导致Cache中有用数据被置换出去的问题,提出了最适合Layer-wise批处理的卷积方法ISC,能够在计算中有效降低Cache miss次数。实验结果表明,相比传统的Image-wise方式,Alex Net使用LW-IRG方法在不同批量数据推断时速度提升比例为13.17%-35.3%;相比LW-IRG方法,Alex Net使用LW-ISC方法在不同批量数据推断时速度提升比例为7.6%-33.81%;此外全连接层、池化层相比传统推断方式最佳速度提升量为41.89%和21.15%。针对CNN巨大的计算量和云端应用场景下推断请求到达时间不确定的现象,以及单个样本推断请求无法充分利用CPU多线程并行的缺陷,本文提出了一种分层批处理的推断方法LBCI。该方法针对网络运行时出现新推断请求的情况,根据是否超出网络中最先推断样本的最佳运行时间(OPT_TIME)来判断最新的样本推断请求是否加入网络共同推断,因此充分利用CPU的并行计算资源,提高计算速度。首先提出了缓冲区数据探测模块,实现推断和接收新数据任务同时执行;其次,提出了BD推断时间预测方法,以此确定调度数据的个数。实验结果表明,在单样本推断场景中,Alex Net在不同请求流速推断的情况下,LBCI比传统方式减少了10.43%-52.43%的延迟时间,提升了9.56%-20.3%的吞吐量,并且对高流量情况违反OPT_TIME的频率也有所改善;在多样本推断场景中,Alex Net在不同请求数量推断的情况下,LBCI比传统顺序方式的推断时间提升4.32%-22.76%。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码导航 ,原文地址:https://bishedaima.com/lunwen/53660.html