基于MongoDB的旅游垂直搜索系统的设计与实现
这是一篇关于垂直搜索,页面抓取,信息提取,信息检索,分布式系统的论文, 主要内容为国民经济快速发展以及人们生活水平不断提高带动了国内旅游行业飞速发展。互联网技术给人们获取信息的方式带来了根本性变革,人们越来越习惯通过互联网获取所需的信息。在旅游行业及其相关领域国内已经存在大量的网站,但这些网站多少都存在一些问题,主要表现为有效信息少、垃圾信息多、用户体验差、内容没有特色等,人们面对鱼龙混杂的的海量信息通常无所适从。通用搜索引擎通常作为信息检索的入口,但在精确查询目标信息方面表现的力不从心,不能满足人们快速、准确地获取目标信息的需求。在这样的背景下,就产生了既能提供全面、准确的旅游相关信息又能简单、快速地为人们提供旅游信息检索服务的旅游垂直搜索引擎。旅游垂直搜索引擎是垂直搜索技术在旅游行业及其相关领域的实际应用。本论文对垂直搜索引擎的理论和技术进行了分析和研究,主要包括网络爬虫系统Heritrix,页面解析和信息提取技术,全文检索系统Lucene。针对系统业务数据存储,分析研究了MongoDB分布式文档存储系统,并对分布式架构中的选举算法和数据同步原理进行了详细阐述。在前面分析和研究相关技术和工具的基础上设计并实现了旅游垂直搜索系统。系统使用Heritrix爬取网络页面,然后使用Jsoup和正则表达式解析网页文件,精确提取所需的数据,再使用Lucene对提取的结构化的数据建立索引,同时基于Lucene的全文检索功能实现了对酒店和景点信息的全文检索。本系统使用双数据库模式,使用Mysql存储结构化、数据结构比较固定的数据,使用MongoDB存储酒店和景点业务数据。系统数据存储模块实现了MongoDB分布式部署,并对系统的可拓展性、稳定性、负载平衡性以及性能进行了基本评估。最终实现了高性能、高稳定、负载平衡、易拓展的旅游垂直搜索系统。
沈阳地铁门户搜索引擎的设计与实现
这是一篇关于搜索引擎,平台,Java,垂直搜索,UML的论文, 主要内容为互联网技术的高速发展正在不断地改变人们的生活和工作方式,也在改变着人们的信息搜索方式。自从1998年Google问世以来,搜索引擎已逐渐成为人们获取信息的主要方式。几乎每一个上过网的用户都使用过搜索引擎,随着使用搜索引擎人数增多,搜索引擎已经成为一种重要的媒体。沈阳地铁有限公司是承担沈阳市城市快速轨道交通建设和运营管理的大型国有独资公司,它顺应时代的潮流和网站业务的需求,研发了自己的搜索引擎。 本文设计和实现的搜索引擎系统,是专门针对沈阳地铁公司特点而为公司量身定做的,因为这个软件主要在公司门户和内部网站上使用,需要发布到公司的Intranet上,所以开发模式没有选择C/S模式而是选择了B/S模式,开发语言选择了Java和JSP,最终的程序运行在Windows Server2008平台下。 本文首先介绍了搜索引擎系统的特点和功能,对搜索引擎系统进行了概述,比较分析了当前国内外搜索引擎系统的研究现状及目前商业系统的不足,进一步研究了J2EE框架在开发搜索引擎系统中的应用,给出了系统的整体设计方案。在对公司搜索需求分析的基础上,完成了系统的总体设计,并阐述了系统的设计原则、构建思想、具体模块设计,进而对系统的核心模块进行了详细设计和实现。最后着重分析了系统实现过程中所遇到的技术与理论难题,涉及到了J2EE Web应用开发前后台技术、Struts框架、Hibernate数据访问技术、Spring框架等。本系统采用了典型三层B/S架构,即将实现部分划分为表示层、数据访问层和业务逻辑层。在系统实现过程中严格遵守沈阳地铁有限公司技术部的编码规范、开发流程,充分运用面向对象的设计思想和MVC等设计模式;充分发挥了MyEclisep for Spring9.1开发平台为开发者提供的设计、编码和测试工具。文中最终实现的系统已经实际用于公司的门户网站和内部网站之上,达到了预期的项目要求,该项目目前仍在继续完善其自身功能。
基于Lucene的垂直搜索引擎的设计与实现
这是一篇关于垂直搜索,中文分词,主题爬虫,爬行策略,Lucene的论文, 主要内容为随着现代社会进入互联网时代,信息高速增长。而传统的搜索引擎公司提供的商业搜索往往是基于广度的,很难直接有效地得到用户需要的信息,因此垂直搜索引擎应运而生,其主要是面对特定领域定向采集信息,对这些信息进行加工后再以用户需要的形式快速地返回给用户。在智能手机市场爆发的时代,市面上并没有合适的基于手机产品的垂直搜索引擎。面对这种需求,本文设计并开发了针对智能手机的基于Lucene的垂直搜索引擎。文中首先介绍了通用搜索引擎的组成和工作原理,特别是垂直搜索中涉及的关键技术如主题网络爬虫,网页信息抽取技术和索引技术,还探讨了Lucene的分词器的架构和工作原理,然后重点研究了中文分词这一关键技术,包括中文分词的难点和常用分词算法。最后采用机械分词法,基于自建手机领域词典,采用了基于Trie树结构词典的改进的正向最大长度匹配的分词方法,实现了简易的中文分词器,经过效果对比,其在手机领域的分词效果比其他的开源分词器好,最后将该分词器应用于Lucene分析器中,搭建了手机垂直搜索引擎的核心部件。本文对手机垂直搜索引擎进行了需求分析后和架构设计,划分了功能模块和设计了数据库,根据选定的开源框架搭建了开发环境,最后实现了功能模块的详细设计和编码,包括扩展Heritrix,改进现有的爬行策略来抓取特定网页信息;使用Htmlparser API分析抓取到的html文档,将页面持久化为产品信息文档;使用Spring+Hibernate+MySql架构构建手机垂直搜索引擎的查询模块,使用DWR技术实现平台的查询子系统的异步请求,分词处理采用了基于手机词典的Analyzer。通过查询实验,验证了本系统对比通用搜索引擎的查准率优势。
分布式小麦病虫害主题搜索系统设计与实现
这是一篇关于小麦病虫害,垂直搜索,分布式爬虫,分布式存储,主题抓取的论文, 主要内容为小麦是我国重要的粮食作物之一,也是被要求保障绝对安全的作物,但是病虫害的存在对其产量和质量安全产生巨大影响。因此,研发一套针对特定农作物病虫害的检索系统,将网络上的相关数据进行实时、精确、全文检索和管理,对提高农业病虫害知识传播、提高农技人员工作效率,促进病虫害防治均有重要意义和生产价值。本文以小麦病虫害为主题,利用垂直搜索技术,设计并实现一个基于分布式信息采集和数据存储的小麦病虫害主题搜索系统。本系统分为三个模块,主要研究结果如下:(1)设计并实现了主题数据采集模块。本文分析了单机爬虫框架Scrapy的运行原理,通过对其核心模块的定制化开发,使之结合Reids数据库搭建分布式爬虫系统。分布式爬虫使用多台机器的带宽和处理器并行下载网络资源,实现网络资源快速、稳定、可扩展地抓取;系统中引入布隆过滤器实现爬虫过程中URL去重功能,提高了 Redis主机内存利用率;改进向量空间模型算法(VSM),使用基于网页标签加权的TF-IDF值作为特征项的权值,主题信息爬取效果提升约10%。(2)设计并实现了系统索引模块。引入并优化Elasticsearch分布式检索引擎,实现大规模数据高可用、高扩展性的分布式存储;分析器中使用IK分词器并实现热更新词库功能,提升了中文分词效果;设计并建立倒排索引库提高数据检索效率。(3)设计并实现了系统搜索模块。设计搜索数据缓存层,降低用户搜索时索引库的频繁查询操作,较大程度上提升了搜索系统响应速度;基于Django框架开发出原型系统,对接Elasticsearch搜索服务器,向用户提供搜索服务;在实现基本的搜索功能情况下,实现热门搜索功能和近期搜索记录功能,优化用户体验。通过与通用搜索引擎的搜索结果进行比较,在小麦病虫害这一主题下,本系统查准率高于通用搜索引擎,具有一定实用性,可为小麦产业技术人员和广大新型农业主体提供小麦病虫害知识检索服务。
沈阳地铁门户搜索引擎的设计与实现
这是一篇关于搜索引擎,平台,Java,垂直搜索,UML的论文, 主要内容为互联网技术的高速发展正在不断地改变人们的生活和工作方式,也在改变着人们的信息搜索方式。自从1998年Google问世以来,搜索引擎已逐渐成为人们获取信息的主要方式。几乎每一个上过网的用户都使用过搜索引擎,随着使用搜索引擎人数增多,搜索引擎已经成为一种重要的媒体。沈阳地铁有限公司是承担沈阳市城市快速轨道交通建设和运营管理的大型国有独资公司,它顺应时代的潮流和网站业务的需求,研发了自己的搜索引擎。 本文设计和实现的搜索引擎系统,是专门针对沈阳地铁公司特点而为公司量身定做的,因为这个软件主要在公司门户和内部网站上使用,需要发布到公司的Intranet上,所以开发模式没有选择C/S模式而是选择了B/S模式,开发语言选择了Java和JSP,最终的程序运行在Windows Server2008平台下。 本文首先介绍了搜索引擎系统的特点和功能,对搜索引擎系统进行了概述,比较分析了当前国内外搜索引擎系统的研究现状及目前商业系统的不足,进一步研究了J2EE框架在开发搜索引擎系统中的应用,给出了系统的整体设计方案。在对公司搜索需求分析的基础上,完成了系统的总体设计,并阐述了系统的设计原则、构建思想、具体模块设计,进而对系统的核心模块进行了详细设计和实现。最后着重分析了系统实现过程中所遇到的技术与理论难题,涉及到了J2EE Web应用开发前后台技术、Struts框架、Hibernate数据访问技术、Spring框架等。本系统采用了典型三层B/S架构,即将实现部分划分为表示层、数据访问层和业务逻辑层。在系统实现过程中严格遵守沈阳地铁有限公司技术部的编码规范、开发流程,充分运用面向对象的设计思想和MVC等设计模式;充分发挥了MyEclisep for Spring9.1开发平台为开发者提供的设计、编码和测试工具。文中最终实现的系统已经实际用于公司的门户网站和内部网站之上,达到了预期的项目要求,该项目目前仍在继续完善其自身功能。
垂直搜索引擎中智能爬虫系统的研究与实现
这是一篇关于垂直搜索,智能爬虫,主题相关度,系统设计的论文, 主要内容为随着信息技术的发展,搜索引擎已经成为了互联网的入口。垂直搜索引擎在垂直领域深度采集数据并加工处理,提供精准和专业搜索服务,具有广泛的关注度和市场需求。智能爬虫是垂直搜索引擎的重要组成部分,完成数据采集的工作。由于其专业背景强,覆盖范围窄,不同的智能爬虫在架构和策略上差异性很大,同时也面临主题相关性的精确度、小范围的大量采集困难等问题。本文针对垂直搜索引擎中的智能爬虫的技术难点,研究相关技术,提出了解决方案,在插件化和分布式的设计原则下,设计和实现了一套完整的智能爬虫系统,同时对系统的功能和性能进行了测试。本文的主要工作包括:(1)设计了一个基于LDA的文本特征提取方法,用机器学习算法决策主题相关性,并建立了以锚文字特征和页面主题相关度为基础的链接预测模型。(2)设计了多策略的应对反爬虫方案和代理服务器筛选流程。(3)提出了基于Bloomfilter的两层三实例的高可用,持久化URL去重方案,解决了海量URL的快速精准去重。(4)完成智能爬虫其它功能的设计,编码实现了完整的系统。通过搭建实验拓扑环境并部署爬虫系统,验证和测试了智能爬虫系统的功能和性能。试验结果表明,本文的设计和实现达到预期目标,提升了爬虫的智能性和效率。
垂直搜索技术在社交网站中的应用与研究
这是一篇关于社交网站,垂直搜索,特征提取,HITS,结果聚类,信息推送的论文, 主要内容为网络快速发展的今天,社交网站逐渐渗透到了人们的生活中,尤其近些年来移动互联网日渐风行,而各种社交应用连通了传统网络与移动平台,使得越来越多的资源可以在网络上进行分享流通,信息量急剧增长。社交网络中巨大的信息量在给用户提供海量资源分享的同时也让用户有了信息选择的困难。一般用户很难从自己的众多网络关联中获取到自己真正感兴趣的信息。与此同时,垂直搜索技术得到越来越多的专业用户的青睐,其在各种领域内的应用得到广泛研究。 本文将垂直搜索技术应用到社交网站中来帮助用户获取其感兴趣的信息。文章首先对垂直搜索系统中的关键技术作了研究,对聚焦爬虫、搜索结果聚类及半结构化信息抽取的关键算法作出研究并提出针对社交网站网页的性能改进方案。 针对传统特征提取方法不适用于社交网站网页的问题,本文中提出一种改进的特征提取方法,综合MI互信息法和x2统计法两种算法在高低频词条上的不同作用性能,同时引入类内词频因素及词条位置因素,提升了特征提取的效果。HITS算法在分析社交网站网页的链接时,存在一系列不合理性,本文在深入研究该算法后在互加强关系的计算及主题保持两方面提出改进方案,聚焦使用改进后的HITS算法指导其抓取策略时,在社交网站网页的抓取方面的性能得到明显改善。 另外,本文在搜索结果聚类及半结构化信息抽取方面基于传统算法提出了改进方案。基于K-means算法提出的基于文本平均相似度的聚类算法使得聚类过程对噪音点的抵抗能力得到增强,也使得选择出来的类中心点具有更好的代表性。依据社交网站网页特性提出的单页多记录信息抽取方案支持使用AJAX技术的网页信息抽取。在这两方面的改进经过实验验证,均对垂直搜索应用到社交网站中的性能有很大提升。 最后本文设计了党史教育交流平台——铺路石微博并将文中研究开发的垂直搜索系统集成到微博中,向用户进行站外信息的定向推送,集成测试测试表明此垂直搜索系统在网站中的应用效果良好,很好的满足了用户的信息个性化需求。
基于文本挖掘的医疗信息检索系统的设计与实现
这是一篇关于文本挖掘,垂直搜索,Elastic Search的论文, 主要内容为随着物质、文化、生活水平的日益提高,人们愈发重视自身的健康状况。而传统的线下医疗服务存在着时间、空间等方面的诸多不便。随着信息化和智能化的高速发展,越来越多的人有在网上阅读医疗健康类的科普资讯并获取相关知识的需求。但是,目前通用搜索引擎在针对垂直领域的信息检索时,搜索结果可靠性和准确性难以保证,尤其在医疗领域更为显著。而目前针对医疗领域的信息检索系统又多为对原始数据的集成和展示。为提供可靠、精准、快速的医疗信息检索服务,设计实现了医疗信息检索系统。医疗信息检索系统由数据处理模块、问答系统模块和信息检索模块这三个模块构成。数据处理模块用于对基础数据的爬取和整合;问答系统模块则通过多个算法模型对问答数据进行处理并提供问答匹配服务;信息检索模块主要为用户提供数据检索服务和其他通用服务。系统的核心数据来源为爬取,为保证医疗科普信息的准确性,本文采用了人工预选的方式来进行门户网站数据的采集和抽取,并通过ETL处理将结构化与半结构化目标数据分别存储于My SQL、HBase。为了解决各大门户数据的错误与空缺,作者提出了基于数据源优先级的数据整合策略。数据经过整合后导入Elastic Search搭建分布式集群,并实现索引数据的批量更新。Web平台采用微服务架构,使用目前较为流行的框架Spring Cloud,为用户提供一般检索、文章检索、问答检索等检索服务和收藏、评论、点赞等通用服务,同时为数据管理员提供模板添加、批量导出、ES集群健康状况展示等运维服务。作者以句子对相似度计算任务为基础设计完成FAQ问答模型,并结合命名实体识别任务、意图识别任务对候选集进行初步筛选,实现了对问答系统准确性和时效性的平衡。其中医疗实体识别采用BERT-Bi LSTM-CRF模型,意图识别采用Text CNN模型,句子对相似度计算采用基于微调的BERT模型。医疗信息检索系统给用户带来了极大的便利,用户可更专注于医疗领域的信息检索和知识获取。平台可根据用户需求为用户提供智能、专业的信息检索服务。目前该系统已经通过了功能性测试和非功能性测试,等待部署上线。
基于Lucene的数码产品垂直搜索引擎的设计与实现
这是一篇关于搜索引擎,垂直搜索,排序算法,采集器,Lucene的论文, 主要内容为互联网作为人类最重要的信息来源,“信息迷航”和“信息过载”已经成为日益严重的问题。基于Internet的各类搜索引擎应运而生,并得到了迅速发展。传统的通用搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定的专业信息时,通用搜索引擎系统有时就显得力不从心。面向主题的搜索引擎是一种分类细致精确、更新及时的搜索引擎,正成为信息搜索技术研究中的研究热点与发展趋势。 本文以用户对数码产品搜索需求为研究背景,采用垂直搜索理念和技术,将国内互联网上的数码产品网站中的数码产品信息内容作为采集对象,在开源的全文检索工具软件包Lucene的基础上,研究和实现了对数码产品信息具有专业化搜索功能的搜索引擎。主要工作如下: 1.在对数码产品搜索业务分析的基础上,分析并确定了系统的基本功能需求和最终目标,运用UML分析设计技术和系统三层架构思想,详细论述了系统的功能设计和数据库设计以及系统数据备份策略。 2.对基于Java的Lucene全文搜索引擎所提供的索引功能和检索功能进行了深入分析,以此为基础建立搜索引擎的索引器和检索器。 3.在设计的采集器中加入了主题预测算法,使其适合于主题搜索引擎。 4.对Lucene中的原排序算法进行了改进,提高检索结果的质量。 5.以WindowsXP+Tomcat+JSP+MySQL为开发环境,设计和实现了数码产品垂直搜索引擎核心模块。 实践表明,本文设计和实现的数码产品垂直搜索引擎的方案是切实可行的,系统基本达到了预期的设计目标。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://bishedaima.com/lunwen/45783.html