7篇关于Lucene的计算机毕业论文

今天分享的是关于Lucene的7篇计算机毕业论文范文, 如果你的论文涉及到Lucene等主题,本文能够帮助到你

垂直搜索引擎在企业征信中的应用研究

这是一篇关于企业征信,垂直搜素引擎,知识图谱,Lucene的论文, 主要内容为目前因企业信用信息不对称而引发的失信行为时有发生,企业交易风险日益严重。而现有的企业征信系统提供的企业征信数据维度较少,主要集中在企业的基本信息和信贷信息,无法准确、全面的反映企业的信用情况。因此,市场迫切需要一个企业征信信息共享平台。论文以企业征信垂直搜索引擎为研究内容,首先给出了企业征信垂直搜索引擎整体架构;利用网络爬虫技术采集互联网上企业征信数据,并对数据进行预处理;将知识图谱技术引入企业征信行业,建立了企业征信关联图谱;结合Lucene技术建立了全文检索模型;最后开发设计了企业征信搜索引擎原型系统。主要研究内容包括:(1)企业征信垂直搜索引擎架构:根据垂直搜索引擎架构,结合企业征信数据准确度要求高、存在关联关系的特点,提出企业征信垂直搜索引擎架构。(2)企业征信数据获取与预处理:首先对企业征信数据进行了深入研究,采用网络爬虫的方法采集数据,设计了数据采集方案和流程;然后利用Scrapy框架从全国12315互联网平台、国家企业信用信息公示系统等多个权威机构公开信息网站上抓取企业征信相关信息;然后对抓取的数据进行了数据清洗、数据聚合等预处理工作。(3)企业征信关联图谱建模:深入研究了知识图谱技术,分析了企业征信的数据维度、搜索需求和数据关联关系;将知识图谱技术引入企业征信领域,提出构建企业征信关联图谱的设计思路;抽取了企业征信实体、实体属性以及实体关联关系,并采用OWL进行建模,给出了企业征信关联图谱的形式化描述。(4)企业征信搜索引擎原型系统设计:利用PyCharm、Neo4j等工具设计并实现了企业征信垂直搜索引擎原型系统。实现了企业征信数据获取与预处理、采用图数据库Neo4j构建了企业征信关联图谱、结合Lucene技术实现了企业征信信息全文索引与检索,实现了企业征信信息显示以及企业征信关联图谱的可视化等功能。

基于门户的中小型软件企业知识管理系统的设计与实现

这是一篇关于知识管理系统,Lucene,Portal,Struts,Hibernate的论文, 主要内容为随着知识经济的快速发展,知识资产已经成为企业的重要资源。到目前为止,国内外企业的知识管理还处于探索阶段,但知识管理作为一种管理模式已经深入人心,并且越来越多的企业开始认识到知识管理的价值。本文在研究知识管理理论的最新成果和分析当前中小型软件企业知识管理现状的基础上,将知识分为显性知识和隐性知识来分别管理,并归纳出知识管理中的关键流程和主要业务功能;然后,对知识管理系统的多种实现技术进行分析比较,采用成熟稳定的web多层体系结构,结合先进的门户技术,设计并实现了一个面向中小型软件企业的知识管理系统。该系统的目的是实现一个易集成的、高效的、低成本的知识管理系统,它能够在企业与员工和员工与员工之间实现电子信息交换,并为企业进一步探索知识管理系统的应用提供实践基础。本文对构成系统的表示层、业务逻辑层和数据持久层进行了深入的讨论,详细论述了运用先进的门户技术、Lucene全文检索技术、Struts框架和Hibernate框架为文档库子系统、专家黄页子系统和实践社区子系统设计和实现的过程。通过这些子系统的有机结合,知识管理系统实现了对文档和专家的管理与评估,并为促进隐性知识的显性化实现了一个知识交流平台。最后,本文对系统功能进行了测试,并在公司内部部署运行基础上,分析了系统的优势和存在的缺陷。

基于IP承载的数据管理系统的研究与实现

这是一篇关于IP承载网,电信,J2EE,数据管理系统,Lucene的论文, 主要内容为IP承载网技术泛指用于承载IP业务和应用的技术,即如何将IP包安全可靠地传递到目的地。基于IP承载的网络以其成本低廉、性能稳定等优点在电信领域中得到了推广与应用。但是与传统网络相比,IP承载网络在设备类型、管理模式上都存在着一定的差异,给管理与维护以及故障排除等环节带来了很大的不便。针对这些问题,本文详细研究了IP承载网的关键技术,实现了基于IP承载的数据管理系统,并成功的应用于电信领域。基于IP承载的数据管理系统以建立功能齐全、可扩展的自动化管理为主要目标,解决原有的电信管理系统在设备管理、物理与逻辑资源分配等方面都不能满足现有需求的弊端,采用新的方式对设备进行拆分、以便设备升级以后管理本系统。基于J2EE多层体系结构,采用DAO设计模式,以Eclipse6.0+MyEclipse3.3作为开发平台,利用Spring技术实现对对象的生成和管理,利用Hibernate技术实现数据库的操作,以在保证数据库类型的快速更改同时提高开发效率。此外,将基于lucene的站内信息检索技术应用到电信企业设备数据管理系统中,及时准确的获得电信企业内部资源的数据信息和设备资源信息。本文设计了详细的测试方案,在测试模型的基础上引入了压力测试工具LoadRunner。通过测试证明,本文系统的实现最大限度地发挥了企业内外部资源、技术和人员的作用,大幅度提高企业经济效益和市场竞争力。

基于Lucene的网页抓取与检索系统

这是一篇关于公共子序列,网络蜘蛛,Lucene,倒排索引,全文检索的论文, 主要内容为随着网络的发展和Web资源的丰富,利用Web全文信息检索系统来获取所需信息已经成为人们日常生活的重要组成部分,用户也越来越关注如何能够更加准确、高效地查找信息。本文对Web信息检索和系统实现的相关理论与技术作了介绍,对信息检索在Web全文信息检索中的应用进行了较深入的实践。在第二章,介绍了论文的相关的理论,如搜索引擎的种类,中文分词的方法,倒排索引的理论和本论文之中所用到的Lucene的理论与使用方法,在第三章,根据网页的特点,提出两种网页模板的分析算法,第一种算法基于最长公共子序列模型,利用动态规划的方法求出最优解,对于原文献的算法的进行了优化和扩展,以达到求出网页模板字符串和被插入字符串的目的,第二种算法利用统计学的相关理论与原理,将网页模板抽象成为一个数学模型,提取出网页的常见标识在网页的开始位置与结束位置,根据正文的长度的不同算出不同的方差,确定正文在原文之中的位置,从而可以从网页之中提取出正文的内容,以达到节省空间和减少建立索引与搜索索引的时间的目的,最后比较了两种算法的优点与缺点。在第四章中,介绍了一个利用Java开发的网络蜘蛛,其中包括异构的数据的处理,例如word, pdf, rtf等文件的内容的提取,另外介绍了一种HTML文件解析方法和多线程的使用。在第五章,实现了一个网页抓取系统,自动地从互联网下载用户所指定的网页的信息,包括内容与下一页,为了提高信息检索的效率,利用Lucene软件包,建立全文检索,加快了搜索的速度,提高了信息的准确性和时效性,节省了大量的存储空间。本文从理论和实际的角度出发,既有算法的设计与分析,也有具体的程序的实现,使用了Oracle, Tomcat, Jsp, Java, Eclipse, Lucene等软件和语言,独创一个HTML的解析方法,为用户节省时间,提高了工作效率。

基于WEB的汉英平行语料库构建系统开发

这是一篇关于爬虫,平行语料库,Lucene,汉英平行语料库的论文, 主要内容为近年来,在平行语料库研究方面,专家学者越来越倾向于对语料库语言学的研究;由此,自然语言处理领域的专家学者们都意识到了高质量、大规模汉英平行语料库巨大的研究价值;另外,在比较语言学研究等领域,汉英平行语料库也发挥着重要作用。但汉英平行语料库在规模和质量上都远不及单语语料库。随着互联网的发展,不同语言间的交流变得日益频繁,双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。双语语料库在机器翻译研究中的作用已日趋明显,但作为一项重要的语言资源,双语平行语料库的系统性构建在中国国内尚未得到充分的关注,基本上还停留在理论之上。本文介绍了一个大规模汉英双语平行语料库的构建系统。研究思路是利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统,采用B/S结构,分两个子系统,即爬虫系统和索引系统,子系统之间松散耦合,运行时相互间无影响;网页爬虫自动的将从互联网爬取到的符合条件的网页,经过处理后存入数据库,再用Lucene对数据库中的数据进行索引,用预先定义的规则对索引进行查询,其结果就是平行语料。系统主要处理的语言是中文和英文这两种语言,但系统中的语言今后是可以灵活配置的,在此基础上稍加修改,就可以配置构建任意两种语言的平行语料库。本文中的汉英双语平行语料库构建系统,开发平台使用Myeclipse,前台页面开发选用Jsp动态网页技术,后台数据库使用开源的MySql,采用MVC设计模式。目的是通过学习国内外前人的相关研究成果,研究使用最新的动态网页开发技术实现“汉英平行语料库自动构建系统”的方法和过程,可以为今后收集大量的汉英平行语料,实现汉英在线翻译提供语料支持。本系统被用作汉英语料库的自动构建,今后还可在此基础上开发汉维语料库自动构建系统。

异构数据联合检索系统的设计与实现

这是一篇关于全文检索,Lucene,索引,中文分词,GreenPlum的论文, 主要内容为随着计算机和网络的普及,越来越多的企业、机关、学校等都利用计算机来处理文档,而在这些机构的管理过程中也必然会产生大量的电子文档。如何从大量的文档中快速而准确地检索出用户所需要的信息成为摆在人们面前的一大难题。某企业对文档的检索上也存在这个问题,目前该企业对文档采用目录式管理,没有一个针对所有文档的检索系统,员工欲查找某项信息需花费大量的时间,并且寻找到的信息不完全。所以该企业急需一个针对其所有文档来进行信息检索的搜索引擎来满足不同用户的需求。本项目以该企业需求为依托,针对异构数据联合检索系统中索引建立与搜索机制来进行研究。该系统提供了按文档类型检索、按发布者检索、按发布日期检索等多种检索方式,以方便用户的使用。同时,针对企业数据量庞大和检索结果需准确的特点,系统对索引的建立与检索过程以及庖丁解牛中文分词器均做了大量的优化。本系统采用Java语言开发,主要使用基于Java的全文索引工具包Lucene来实现。考虑到企业庞大的数据量以及未来的系统升级,数据库采用专门针对大容量数据处理的GreenPlum数据库。项目采用SSH框架,文档解析采用了POI和PDFBox工具包,中文分词器采用了庖丁解牛分词器。开发工具使用MyEclipse10。系统运行情况良好,就检索的效率和效果而言,基本达到了最初的设计要求。

法院信访系统的来信子系统的设计与实现

这是一篇关于来信,B/S 模式,SpringMVC 框架,Hibernate 框架,Lucene的论文, 主要内容为2016年7月,最高人民法院提出推进信息化建设,建成以大数据分析为核心的人民法院信息化3.0。天津市高级人民法院响应号召,推动天津法院的信息化建设,并对信访系统进行升级。原信访系统是基于C/S模式开发,作为法院综合信息系统里的子系统,功能不够完善,所以法院提出建设基于B/S模式的信访系统。新版信访系统采用MVC 架构,结合 Hibernate、Spring、SpringMVC、POI、Lucene 以及 Bootstrap等流行的前端技术来开发。目前,该系统已经在天津市高级人民法院测试上线,满足使用要求,获得法院工作人员的好评。本文围绕法院信访系统的来信子系统的设计与实现,主要工作如下:(1)对项目的需求进行分析,然后概述项目的设计、项目的模块划分以及数据库结构设计,突出对项目详细设计的阐述。(2)详细描述了系统各个模块的实现,包括来信登记(包含信件信息登记和信件保存),来信处理(包含来信登记信息修改、处理方式选择和处理来信),受理来信(包含信息总览和修改处理方式),台账管理,态势分析和权限管理模块(包含用户管理、角色管理和权限管理)。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：源码货栈，原文地址：https://bishedaima.com/lunwen/45626.html