8篇关于Heritrix的计算机毕业论文

今天分享的是关于Heritrix的8篇计算机毕业论文范文, 如果你的论文涉及到Heritrix等主题,本文能够帮助到你

面向商品比价应用的垂直搜索引擎系统设计与实现

这是一篇关于垂直搜索,B2C,比价,Heritrix,Lucene,Spring的论文, 主要内容为爆炸式增长的信息和不断发展的互联网技术,使得WEB的信息量急剧增长,格式以及内容不断翻新。通用搜索引擎从海量的信息中准确快速地搜索出特定的内容已经十分困难,如何从网络中的海量信息里快速而有效地查询到所需有价值的信息已成为人们关注的重点。垂直搜索引擎具有“专、精、深”的特点,可通过面向某一特定的领域、人群或需求仅搜索网络中的特定主题信息,并且聚合信息、处理索引,提供有价值的相关服务和信息,从而提高用户检索时的准确率。随着电子商务的发展,在要求电商信誉和商品质量的前提下,使用B2C购物的消费者越来越多。为了挑选便宜实惠的商品,消费者在购物中常常进行价格比较。垂直搜索引擎技术针对某一特定领域、某一特定人群或某一特定需求提供信息和相关服务的特点与商品比价应用的需求很好地契合。本论文实现一款手机比价系统,以高精度搜索为目标,应用垂直搜索的理论与技术予以实现。本文选取了两家知名数码电商为搜索目标,为用户提供手机的比价搜索服务,摒弃相关性较弱的信息。本文在掌握Heritrix主要的工作流程及相关的技术要点的基础上,运用Heritrix工具包编写抓取逻辑实现了抓取网页；运用HTMLParser Libr aries编写逻辑实现了HTML的解析与信息提取；在分析和掌握Lucene主要架构和各个部件,详细研究其中的索引模块和检索模块实现机制和原理的基础上,编程实现了网页内容索引；搭建Spring框架并运用Ajax技术实现了检索和用户接口部分。该比价系统实现了设计中所有需求的功能,满足了用户比价的需求,具有一定的实际应用价值。

基于Heritrix框架的专业镇信息网络爬虫系统

这是一篇关于网络爬虫,数据采集,专业镇,Heritrix的论文, 主要内容为改革开放以来,广东省的专业镇特色产业迅速发展。广东省人民政府提出建设广东省专业镇中小微企业信息服务平台,用于提供创新资源、市场信息和企业技术需求等方面的信息,引导专业镇中小微企业走向信息化,国际化。信息服务平台需要对信息进行数据采集,在如今信息化时代,网络已经成为人们获取信息的重要渠道,可以使用网络爬虫技术从互联网上进行数据采集。本论文课题的研究工作主要来源于“广东省专业镇信息服务平台”项目。信息服务平台主要由三个部分组成:前端系统、后台系统和网络爬虫系统。后台系统主要用于管理,主要的功能有:内容管理、用户管理、权限管理和流程管理等。前端系统主要用于展示,把后台系统中的数据按照用户需求显示在相应的页面上。网络爬虫系统主要为整个信息服务平台去互联网上采集相应的数据,经过处理,然后导入到后台系统当中。本论文的工作主要针对网络爬虫系统,包括完成了以下工作:首先对系统使用到的Heritrix框架和相关技术做了相关的介绍。然后,本论文描述了专业镇信息服务平台的总体架构,包括需要分析、网络结构、软件架构和处理流程。接着本论文对网络爬虫系统的设计做了一个详细的描述,包括系统功能、软件结构、工作流程和数据库设计等。然后详细描述了专业镇信息网络爬虫系统的实现,主要包括网页抓取、内容解析、数据过滤和数据导入这4个模块的实现以及一些具体数据类型的爬取过程。本文在深入研究Heritrix 3.1.1源码的基础上对Heritrix进行定制,增加链接文本,以及对Heritrix进行优化,包括参数优化、取消robots.txt检查和同域名多线程优化。依据创新资源库、市场信息库和企业技术需求库三大数据库中的数据类型,扩充Heritrix处理器链,增加自定义的解析方式和过滤规则,其中使用了启发式规则进行某些数据类型的爬取,并用到了网页正文抽取、IK分词器、模拟登录和使用SMB协议进行远程存储图片等技术。针对灯饰行业,专业镇信息网络爬虫系统爬取了35万多条数据,并成功导入到后台系统中,完成了项目设定的目标。

开源软件热度分析系统的研究与实现

这是一篇关于开源软件,开源社区,热度分析,Heritrix,OSSEAN的论文, 主要内容为随着互联网的蓬勃发展,基于Web的开源社区逐渐成为了开源软件的数据存储中心,这些数据对开源软件的研究具有重大的意义[1]。开源软件的出现为软件开发者提供了大量的相对可靠的可利用资源,降低了重复性工作,让开发者将更多的精力投入到软件核心技术研究上面[2]。然而,由于开源社区数据规模巨大、入门门槛低等原因,导致了很多开源社区中开源软件质量良莠不齐,用户想要选择一款好的开源软件显得十分困难。于是,实现一个综合、可靠的开源软件评价机制就成了当务之急。庆幸的是,开源软件的发展使得开源社区中积累了大量软件开发数据,这些数据包括版本提交信息、用户使用数量、代码提交次数等等,这些信息几乎记录了软件开发过程中的全部活动,成为宝贵的历史数据。此外,以开源软件相关技术论坛为代表的知识共享社区中含有大量有关开源软件讨论的帖子。这些帖子中含有用户对开源软件多方面的讨论信息,某种程度上这些信息能够直接或间接反映开源软件的质量。因此,如果我们能将开源软件的开发数据与知识共享社区中软件的讨论信息进行关联,实现开源软件热度的综合评价,这将是一件很有意义的事情。基于以上分析,本文研究内容主要包括:1.协同开发社区及知识共享社区数据的采集。通过对网络爬虫Heritrix进行扩展,开发了一个高效的聚焦网络爬虫系统,实现社区数据的准确抓取。2.开源软件与社区文档关联关系挖掘算法的研究。解决数据单一性问题,为多角度评价开源软件热度作准备。3.开源软件热度评价机制的研究。通过各方面数据,实现开源软件热度的综合评价,最终在OSSEAN平台展示评价结果。

校园视频网络信息检索研究及设计

这是一篇关于垂直检索引擎,Lucene,中文分词,Heritrix,倒排文件的论文, 主要内容为随着社会信息化的发展,低廉成本、强大功能的视频监控系统以其灵活的使用方式越来越普遍应用于公共场所。由于长周期的运行,期间产生海量的多媒体信息存储在服务器中,通常操作人员大部分维护时间用于管理生成数据库,海量的多媒体信息需要采用先进的检索技术,本文针对校园视频网络信息库,提出了一种基于Lucene面向主题检索引擎的解决方案,实现了校园视频网络信息检索引擎。本文在具体设计过程如下:(1)研究并整理了国内外检索引擎的关键技术的相关文献,并归纳和整理了这些文献,完成了总结报告。(2)研究了系统开发的相关技术,分析了系统开发所要用到的Web开发技术、WebService框架,学习并深入了解了SSH框架的原理,同时研究和学习了MVC设计模式、MySql数据库,重点研究了Java的索引工具包Lucene。(3)对系统进行了需求分析,结合四川机电职业技术学院的实际情况分析了校园视频监控系统的背景、功能需求和非功能需求如健壮性与安全性,为系统的设计作了准备,关键提出了以校园视频网络信息为主题的检索引擎的设计方案。(4)对四川机电职业技术学院的校园视频监控信息检索系统进行了设计,结合实际情况分析了系统的设计原则、体系机构和功能设计,比如抓取、索引和检索功能设计以及系统的数据库设计,为系统的编码作了准备。(5)使用MyEclipse8.5开发工具实现了整个校园视频监控信息检索管理软件系统,并对截图展示了相关界面,实现了基于Lucene的校园视频网络Web站内全文检索系统。本文用于四川机电职业技术学院校园视频监控系统产生的数据库管理,有一定的提高管理效率作用。

基于多元线性回归模型的电影票房预测系统设计与实现

这是一篇关于多元线性回归,电影票房预测,Quartz,Heritrix,J2EE的论文, 主要内容为近年来,随着电影行业越来越热门,由此为影院带来了丰厚的票房收入。传统影院都是依靠人工经验排片,在电影上映前,凭经验对电影进行排片。但是由于影片的票房收入受多种因素的影响,排片多的电影可能最后的票房远低于预期值,导致影院因安排失误而损失了很多票房收入。基于此背景下,众多的影院希望有一个模型能够预测电影的票房,为影院的排片进行指导。但是现有的电影票房预测模型,由于商业的原因很多都是不公开的,所以本文在分析了多元线性回归预测应用与票房预测模型的国内外研究现状的基础上,提出了多元线性回归的票房预测模型,并基于SSH框架,采用MVC开发模式,在系统当中集成Quartz定时任务调度框架与Heritrix爬虫搜索引擎,实现了可对电影票房进行预测的系统。本系统为使用者提供了票房预测、影片资料查询、票房趋势查询、票房统计等功能,并提供后台管理功能帮助使用者更好地管理与改进系统,使得系统更加智能化与人性化,增加了系统的可扩展性与可维护性。通过本系统的实施,能够为国内的影院提供即将上映的电影的预测票房,为影院排片提供有效的参考依据,极大地减少了因人为主观因素对电影排片而导致实际票房远低于预期票房的事情发生,减少了影院的票房损失。同时本系统能够自动进行票房数据预处理以及模型训练等一体化功能,为用户提供电影票房的排行与趋势走向,能够有效地为用户提供电影票房方面的数据,具有非常好的应用前景和使用价值。

基于J2EE框架和搜索引擎构建购物系统的研究与实现

这是一篇关于网上购物,框架整合,Heritrix,Lucene,数据存储的论文, 主要内容为随着Internet网络的普及、电子商务的发展以及人们生活和消费观念的改变,网上购物受到越来越多的关注。结合网上购物项目,论文简介了课题研究的目的意义,国内外研究现状,实验研究的主要内容和论文的组织结构。基于J2EE规范、框架技术和MVC设计模式的研究,论文分析了Struts、Spring、Hibernate和DWR等框架的组成机制、工作原理和整合方法。基于应用需求,给出了系统用例图、功能模块划分、部分模块的活动图、系统类图、各层的概要设计及数据库设计。论文以网上购物系统的商品管理模块为例,给出了系统工作的时序图及基本类图,整合框架在多个分层的应用实现过程、技术要点和细节。结合编制博客子系统的应用需求与具体实例,分析了Spring、Hibernate及DWR框架的整合步骤和应用方法。针对构建数据存储方法的讨论,论文重点研究了网络爬虫Heritrix、检索工具Lucene、正则表达式和解析器HTMLParser所构建的搜索引擎。实验总结了Heritrix在Eclipse环境下的配置。认真分析了指定网站的产品信息页面,扩展了Heritrix的抓取组件。使用相关技术和方法,实现了信息的采集、过滤、提取、存储及索引应用的全过程。论文最后总结了课题的研究成果,展望了本论文所涉及的相关技术以及作者进一步的研究工作。

面向垂直搜索的聚焦爬虫研究及应用

这是一篇关于垂直搜索,聚焦爬虫,结构化数据提取,Heritrix,Web-Harvest的论文, 主要内容为随着搜索引擎技术的发展,服务于特定领域的垂直搜索应用开始兴起。作为注重专业化与结构分析的垂直搜索技术,其前提是建立在与主题相关的结构化的元数据信息之上。因此,如何准确、及时地获取结构化数据信息成为了当前垂直搜索领域研究的一大课题。网络爬虫作为搜索引擎信息源的提供者,能够自动提取网页超链接,并负责下载相应的Web信息。但它在结构化数据信息的获取方面,还不能满足垂直搜索引擎的需要。为此,本文提出用面向垂直搜索的聚焦爬虫技术来解决上述问题。在简单介绍垂直搜索与网络爬虫的技术背景之后,围绕面向垂直搜索的聚焦爬虫这一中心,本文完成了下列主要研究及应用工作: 1)系统地描述了面向垂直搜索的聚焦爬虫的概念、主要工作原理及流程、关键技术分析,还探讨了其发展趋势。 2)针对聚焦爬虫最核心基础的两大工作环节:网页抓取和信息提取,提倡借鉴国外先进的开源项目技术:网络爬虫Heritrix和解析工具Web-Harvest。同时也为后续的应用作了技术铺垫。 3)在现有的研究基础上,引入一个实际的职位招聘垂直搜索引擎项目,并结合其中一个具体的案例站点(即“智联招聘”网站)的应用需求,规范化设计并实现一套用来解决其结构化数据信息获取的聚焦爬虫系统。该系统具备良好的可扩展性和可修改性,有较好的实际应用价值。本文的创新点主要在于合理地整合运用了一些开源项目,发挥它们各自所长,给出了一个实用的面向垂直搜索的聚焦爬虫解决方案。