5篇关于反爬虫的计算机毕业论文

今天分享的是关于反爬虫的5篇计算机毕业论文范文, 如果你的论文涉及到反爬虫等主题,本文能够帮助到你

具有反爬虫机制的影评系统的设计与实现

这是一篇关于反爬虫,极端梯度提升算法,微服务,高可用的论文, 主要内容为随着电影业的不断发展,越来越多的电影涌现在人们的面前,人们想甄选出较好的电影,通常是以电影的综合评价作为首要标准,此时全面、客观的评价就显得尤为重要了。最早的电影评价是在传统的纸媒上进行的,通常都是由专业影评人发表影评文章,但这种评价方式手段太单一,而且不能够从多维度对电影进行评价,容易对观影人产生误导作用,所以全民参与影评的需求就显得尤为突出。随着互联网的高速发展,人们可以在网络上对所有的电影进行评价,这种方式的评价维度比较全面,时效性也非常高,评价方式也非常开放,而且使用网络评价的方式也可以允许所有人发表影评,而不局限于之前极少量专业人士的影评。大家通过参考这些影评可以选择自己喜欢的电影,减少筛选电影的成本,能够快速、高效、便捷地选择出自己想看的电影。本文首先阐述了项目的背景以及国内外现状,对整个系统进行功能性和非功能性需求分析。根据需求分析设计系统架构、划分系统功能模块、设计系统数据库,并对系统进行详细设计与实现。作者独立完成了社区、榜单、会员中心、反爬虫功能模块的设计与实现,并参与了其它模块的部分工作。其中反爬虫模块是对已存在的反爬虫技术进行了改进,提高了反爬的精度和速度,进一步保证了系统的安全。反爬模块主要是通过收集系统的请求数据,拆解请求数据为特征,模型评估后选择极端梯度提升算法进行特征转化,使用逻辑回归算法完成爬虫判断,并且根据数据的累积及爬虫技术的升级而不断优化反爬虫模型。本系统采用Zookeeper框架、Thrift框架实现微服务管理,这样能保证系统功能模块独立,降低各模块之间的耦合度,并且能保证系统高可用。同时通过Spark计算定期更新热度榜、口碑榜和人物榜,使用户可以更便捷的看到近期最热门或评价最好的电影,节省用户挑选电影的时间。数据存储使用Mysql数据库、Hive文件系统,缓存使用Redis集群。目前,本文所提及的系统已经开发完毕,并成功上线。影评系统运行状况稳定,满足用户的需求和公司的期望。

学术型网站安全运行技术研究

这是一篇关于学术型网站,访问控制,反爬虫,启发式规则,机器学习的论文, 主要内容为随着互联网和计算机技术的不断发展,学术型网站在现代科研中发挥着越来越大的作用,为研究者提供了很多便利。在学术型网站提供服务的同时需要保护网站中的学术资源不被非法获取,保障网站的安全运行。访问控制和反爬虫技术对于保障学术型网站正常安全地向研究者提供服务以及保护学术型网站的内容都很重要。因此,使用这两种技术设计系统保护学术型网站具有重要的现实意义。访问控制系统的主要作用是保护学术型网站中的学术资源和学术数据不被非法获取。该系统是以基于角色的访问控制模型为基础构建的,并向模型中添加了用户组以解决模型批量授权复杂的问题。此外,该系统可以根据访问主体或访问主体所属的用户组被授予的角色来判断是否允许该主体访问其想要访问的目标资源,同时还提供了角色分配规则。反爬虫系统主要是为了防范爬虫对学术型网站带来的危害,避免网站的内容被爬虫窃取以及保障网站的安全的运行。该系统是以启发式规则和机器学习组合的反爬虫方法为基础构建的。该方法结合了启发式规则实时识别爬虫和机器学习识别爬虫精确率高的优点。启发式规则根据主体请求的相关特征来实时识别爬虫。机器学习则是使用网站的访问日志来训练分类器,由分类器来识别启发式规则无法识别的隐藏爬虫。实验部分使用真实的数据集,来评估设计的系统,实验结果证明了访问控制系统的有效性以及反爬虫系统的准确性。此外,反爬虫系统使用的随机森林分类器识别爬虫的精确率达到了90.5%。

学术型网站安全运行技术研究

航空订票服务器爬虫检测技术研究

这是一篇关于反爬虫,订票系统,可视分析,支持向量机,Redis的论文, 主要内容为网络爬虫是一种自动化浏览网页和抓取网页数据的程序,是多种网络应用的关键技术,如搜索引擎依赖于爬虫获取网页中的信息。但随着网络爬虫技术的发展,一些恶意爬虫对电子商务造成了不可忽视的损失,它们占据网络带宽,触碰用户隐私,窃取商业信息等。在航空订票系统网络爬虫的危害更甚,因此本文设计了一套针对航空查订票系统的反爬虫可视交互系统,协助用户通过分析大规模且动态变化的IP日志数据来检测爬虫。本文系统采用反爬虫模型离线计算,爬虫实时在线检测的运行方式。使用历史日志数据建立反爬虫模型,再利用此模型对实时的访问日志进行分析,判断当前的访问是否为爬虫。同时可以定期进行离线模型的再学习和更新,以适应新型爬虫。本系统利用Redis缓存技术处理航空票务网站等其他电商平台的高并发请求来保证实时爬虫检测响应。本文设计的可视化界面提供了航线图、柱状图、饼图等多种可视化手段,方便用户随时查看历史和实时的查订票状况和爬虫检测效果。同时以IP地址聚合和查询量排序模块协助用户分析和识别动态IP爬虫,以特征筛选、IP历史详情查询等可视化模块支持用户手工筛选训练样本来更新SVM分类模型。本文创新点有:开发了E-build服务器端的通用爬虫检测系统,可替换各航空公司现有的前端反爬虫系统;考虑了爬虫的整体行为,发现了大量的动态IP;提供了可视交互界面以高效的更新分类器,保持检测算法长效性;利用Redis缓存技术实现高并发请求的爬虫实时检测。以某航空公司访问E-Build服务器的日志数据进行的实验结果表明,该系统能够有效地抓取多种爬虫,极大地降低无效查询量,并且能方便地更新分类模型,保持检测算法的长效性。