面向装备软件文档的测试工件自动化抽取系统的设计与实现
这是一篇关于测试工件,文档解析,软件测试文档,信息抽取的论文, 主要内容为随着国防建设现代化水平的提升,武器装备软件的规模越来越大,软件密集型特征日益凸显,当下软件质量已经成为影响装备质量的核心因素。在装备研制过程中,软件测评作为保障装备软件质量的重要环节,被纳入到型号研制的初样、试样、定型等多阶段,在此过程中汇集了大规模的过程数据,有效地收集整理并充分利用这些数据对武器装备的敏捷迭代、质量把控具有重大意义。传统的软件测评方式不能满足大规模装备软件的测评需求,人工阅读分析内容繁多软件文档并依此制定测试方案将耗费大量的人力和时间,并使得开展测试工作难度大、周期长,难以快速迭代,且测试经验知识难以分享也不便于留存供后续测试人员复用。本文依据对装备软件评测关联流程与重要测试过程数据分析的基础上得到的测试工件定义,设计实现了面向装备软件文档的测试工件自动化抽取系统。本文的主要工作为:(1)基于MVC体系风格设计了数据交互、文档数据管理、文档解析以及测试工件抽取模块,其中测试工件抽取模块采用了模版规则和自然语言处理两种抽取方法以兼顾抽取的准确性和泛化能力;(2)对系统的核心模块进行了详细设计和实现;(3)对系统进行了测试,测试结果表明系统功能满足了需求。本文系统能较精准地从装备软件文档中抽取测试工件,可为装备测评人员提供有价值的项目测试知识,并为后续软件测评复用提供数据借鉴。系统基于Spring Boot框架进行开发,以web应用方式向用户提供服务,用户可通过浏览器访问系统进行测试文档上传管理、文档解析、测试工件抽取以及结果数据的下载。目前本文系统已经部署在本单位服务器上试运行且总体效果良好,能够有效缩减测试人员阅读分析测试文档的时间精力,保证测试人员更集中高效地专注于测试工作,从而保障装备软件最终的产品质量。
面向装备软件文档的测试工件自动化抽取系统的设计与实现
这是一篇关于测试工件,文档解析,软件测试文档,信息抽取的论文, 主要内容为随着国防建设现代化水平的提升,武器装备软件的规模越来越大,软件密集型特征日益凸显,当下软件质量已经成为影响装备质量的核心因素。在装备研制过程中,软件测评作为保障装备软件质量的重要环节,被纳入到型号研制的初样、试样、定型等多阶段,在此过程中汇集了大规模的过程数据,有效地收集整理并充分利用这些数据对武器装备的敏捷迭代、质量把控具有重大意义。传统的软件测评方式不能满足大规模装备软件的测评需求,人工阅读分析内容繁多软件文档并依此制定测试方案将耗费大量的人力和时间,并使得开展测试工作难度大、周期长,难以快速迭代,且测试经验知识难以分享也不便于留存供后续测试人员复用。本文依据对装备软件评测关联流程与重要测试过程数据分析的基础上得到的测试工件定义,设计实现了面向装备软件文档的测试工件自动化抽取系统。本文的主要工作为:(1)基于MVC体系风格设计了数据交互、文档数据管理、文档解析以及测试工件抽取模块,其中测试工件抽取模块采用了模版规则和自然语言处理两种抽取方法以兼顾抽取的准确性和泛化能力;(2)对系统的核心模块进行了详细设计和实现;(3)对系统进行了测试,测试结果表明系统功能满足了需求。本文系统能较精准地从装备软件文档中抽取测试工件,可为装备测评人员提供有价值的项目测试知识,并为后续软件测评复用提供数据借鉴。系统基于Spring Boot框架进行开发,以web应用方式向用户提供服务,用户可通过浏览器访问系统进行测试文档上传管理、文档解析、测试工件抽取以及结果数据的下载。目前本文系统已经部署在本单位服务器上试运行且总体效果良好,能够有效缩减测试人员阅读分析测试文档的时间精力,保证测试人员更集中高效地专注于测试工作,从而保障装备软件最终的产品质量。
基于Lucene的中英文文档全文搜索引擎
这是一篇关于Lucene,中英文文档,全文搜索引擎,文档解析的论文, 主要内容为随着互联网的发展,搜索引擎已成为网民获取网络信息的主要工具。在这种趋势下出现了各式各样的搜索引擎。网络上有一类文档包含了大量信息,这类文档包括word、powerpoint、excel等等。虽然目前存在一些专业的文档搜索引擎比如北大天网FTP文件搜索引擎,但这类搜索引擎的检索范围仅限于FTP文档,并且只能对文件名进行检索而无法对文档内容进行检索。尽管有少数的大型专业搜索引擎如baidu、google实现了对文档内容进行检索的功能,但这些搜索引擎并不是针对文档的搜索引擎,它们通过解析HTTP页面的方式来搜集文档,而不支持对FTP服务器上的文档资源的搜集,因而损失了大量的资源。此外,对于日益增长的海量网络数据,检索结果本身就是一个很大的集合,用户很难从这个大集合中有效地获取信息,因此用户需要更具体更客户化的搜索引擎。 本文设计和实现的中英文文档全文搜索引擎不同于现有的搜索引擎。该文档搜索引擎对海量网络数据提供了简化性整合,可以灵活地与垂直搜索等技术相结合。该搜索引擎可以被应用到特定的领域比如对特定网站的文档资源的检索、对特定行业的文档资源的检索等等。该系统一方面弥补了现有文档搜索引擎信息量匮乏的缺陷;另一方面,系统“硬件要求低、简洁、灵活、可配置”的特点使其可以方便地应用到各种具有专门需求的全文检索领域。 本文重点介绍和实现了以下一些方面: 1.系统的总体设计;为提高性能和可扩展性所做的一些局部设计。 2. HTTP和FTP爬虫系统。设计并实现了用于抓取特定文档(word, powerpoint, excel)的HTTP和FTP爬虫系统。详细描述了HTTP爬虫的总体架构设计、运行流程、重要组件DNS cache的设计与实现。阐述了URL去重策略的设计与实现、Polite Nice抓取处理策略的设计与实现、HTML页面解析过程的设计与实现、文档抓取过程的设计与实现。阐述了FTP爬虫系统的总体设计和性能优化方案。阐述了爬虫系统的文件去重功能的设计及实现、文档解析系统的接口设计及实现。 3.基于apache POI的文档解析模块。介绍了模块总体设计、具体实现、存储优化策略。 4.基于lucene的检索模块和UI模块。介绍了lucene的原理,结合web技术阐述了检索模块和UI模块的设计思路和实现方法。 文章最后对系统的工作效果和性能进行了简单评测,对系统未来的工作进行了分析和展望,提出了一些优化方案。
基于Spring的双语阅读教学平台的研究与设计
这是一篇关于spring框架,图书推荐,文档解析,流量控制的论文, 主要内容为随着互联网技术的快速发展,在线阅读平台迎来了新的发展机遇期。但目前国内双语阅读平台大多功能逻辑简单,高可用性差,面向教学场景开发的功能更是少之又少。为了解决以上问题,本文设计并实现了一个双语阅读教学平台,该平台对传统在线阅读平台在阅读模式和应用场景上进行了扩展和创新,加入了双语阅读和面向教学的业务场景功能,包括图书推荐、校园管理、阅读概况统计等功能。同时由于Spring框架的开发效率高、兼容性强等优点,因此将Spring框架作为该双语阅读教学平台的主要开发框架。本文为了解决面向学生的双语图书推荐需求,提出了一种基于知识图谱的记忆化学习路径推荐算法KGM-RA。该算法根据学生的能力等级测评结果,不仅可以量化出学生的外语能力水平,而且还能给学生推荐符合其实际外语能力的双语图书。实验表明,该算法相对于基于协同滤波或者二元评分认知诊断的图书推荐算法在推荐结果可解释性、有效性和知识连贯学习等方面拥有更加优异的表现。本文为了解决校园管理中需要手动处理各类文档解析的痛点问题,提出了一种基于Java线程池的智能文档解析实现方案。该方案除了能准确提取出Word、Excel、PPT、PDF文档外,还能实现不同文档类型的同时解析。此外,针对本平台存在的多维度流量控制需求,提出了一种分布式双速限流算法DTR-LA。该算法在原有单服务的令牌桶限流算法基础上,通过Lua脚本技术在Redis上实现不同类型令牌的生成和分发,可以做到在分布式集群中实现双速服务限流的功能。实验表明,该算法可以做到HTTP请求动作和请求资源URI的多维度服务限流,同时还能针对不同的服务接口优先级实现差异化的流量控制,有效地提高了平台的整体吞吐量。最后对该双语阅读教学平台中的各个功能模块和使用到的算法进行了功能逻辑性和有效性测试。测试结果表明,该双语阅读教学平台不仅能够满足日常的双语阅读教学管理,实现个性化双语图书推荐,而且还具有高可用、高可靠、低延迟等特性。
基于Spring的双语阅读教学平台的研究与设计
这是一篇关于spring框架,图书推荐,文档解析,流量控制的论文, 主要内容为随着互联网技术的快速发展,在线阅读平台迎来了新的发展机遇期。但目前国内双语阅读平台大多功能逻辑简单,高可用性差,面向教学场景开发的功能更是少之又少。为了解决以上问题,本文设计并实现了一个双语阅读教学平台,该平台对传统在线阅读平台在阅读模式和应用场景上进行了扩展和创新,加入了双语阅读和面向教学的业务场景功能,包括图书推荐、校园管理、阅读概况统计等功能。同时由于Spring框架的开发效率高、兼容性强等优点,因此将Spring框架作为该双语阅读教学平台的主要开发框架。本文为了解决面向学生的双语图书推荐需求,提出了一种基于知识图谱的记忆化学习路径推荐算法KGM-RA。该算法根据学生的能力等级测评结果,不仅可以量化出学生的外语能力水平,而且还能给学生推荐符合其实际外语能力的双语图书。实验表明,该算法相对于基于协同滤波或者二元评分认知诊断的图书推荐算法在推荐结果可解释性、有效性和知识连贯学习等方面拥有更加优异的表现。本文为了解决校园管理中需要手动处理各类文档解析的痛点问题,提出了一种基于Java线程池的智能文档解析实现方案。该方案除了能准确提取出Word、Excel、PPT、PDF文档外,还能实现不同文档类型的同时解析。此外,针对本平台存在的多维度流量控制需求,提出了一种分布式双速限流算法DTR-LA。该算法在原有单服务的令牌桶限流算法基础上,通过Lua脚本技术在Redis上实现不同类型令牌的生成和分发,可以做到在分布式集群中实现双速服务限流的功能。实验表明,该算法可以做到HTTP请求动作和请求资源URI的多维度服务限流,同时还能针对不同的服务接口优先级实现差异化的流量控制,有效地提高了平台的整体吞吐量。最后对该双语阅读教学平台中的各个功能模块和使用到的算法进行了功能逻辑性和有效性测试。测试结果表明,该双语阅读教学平台不仅能够满足日常的双语阅读教学管理,实现个性化双语图书推荐,而且还具有高可用、高可靠、低延迟等特性。
《支付清算》杂志统计查询系统的设计与实现
这是一篇关于信息系统,文档解析,JSP,全文检索,统计查询的论文, 主要内容为目前,我国经济规模不断扩大,交易活动日益频繁,支付清算行业发展迅速。作为支付清算方面的专业性刊物,《支付清算》近年来在行业内的影响力不断扩大,接到投稿和刊登稿件的数量连年增加,投稿信箱接到重复稿件的情况时有发生,需要处理、统计的数据也越来越多,编辑人员基于简单的邮件系统检查稿件内容、滤除重稿、登记稿件信息、手工分发稿件、完成相关数据的统计要花费大量的时间与精力,直接影响到了编辑工作时效性的提高和编辑部工作的进一步开展。 本课题来源于中国人民银行清算总中心2009年信息化项目,是中国现代化支付系统开发中心(以下简称“开发中心”)的实际开发项目。为适应目前刊物快速发展的形势,提高《支付清算》编辑和处理稿件的效率,加强编辑工作的规范化、正规化管理,人民银行清算总中心决定开发一套《支付清算》编辑信息化系统(命名为《支付清算》统计查询系统),由《支付清算》编辑部提出业务需求,由开发中心承担软件设计、开发工作。 本文介绍了《支付清算》统计查询系统项目建设的背景,并对系统的建设目标和课题的主要研究内容进行了详细的分析;在充分分析《支付清算》编辑工作业务需求的基础上,介绍了《支付清算》统计查询系统的建设方案和实现。 《支付清算》统计查询系统的应用使用JSP技术进行开发,服务器方面选用了TongWeb, (?)服务器操作系统采用了Suse Linux,在文档的解析方面使用了Apache软件基金会成熟的开放源码函数库。通过使用开源、免费软件,提高了开发效率,降低了使用成本,文章对系统的业务需求、设计、测试进行了分析研究。 本课题成果的主要特点体现在突出了安全可靠的系统架构,高效准确的数据处理机制,成熟稳定的应用系统。本课题已经在全国银行业金融机构实际应用,系统实现了7×24小时连续运行,已证实稳定可靠。系统的上线提高了编辑部的工作效率,实现了获得作者全面规范的信息、防止重复投稿、关键字检索、稿件统计、提供刊物电子版下载等目的,在编辑、作者和读者中取得了良好的反响。
面向装备软件文档的测试工件自动化抽取系统的设计与实现
这是一篇关于测试工件,文档解析,软件测试文档,信息抽取的论文, 主要内容为随着国防建设现代化水平的提升,武器装备软件的规模越来越大,软件密集型特征日益凸显,当下软件质量已经成为影响装备质量的核心因素。在装备研制过程中,软件测评作为保障装备软件质量的重要环节,被纳入到型号研制的初样、试样、定型等多阶段,在此过程中汇集了大规模的过程数据,有效地收集整理并充分利用这些数据对武器装备的敏捷迭代、质量把控具有重大意义。传统的软件测评方式不能满足大规模装备软件的测评需求,人工阅读分析内容繁多软件文档并依此制定测试方案将耗费大量的人力和时间,并使得开展测试工作难度大、周期长,难以快速迭代,且测试经验知识难以分享也不便于留存供后续测试人员复用。本文依据对装备软件评测关联流程与重要测试过程数据分析的基础上得到的测试工件定义,设计实现了面向装备软件文档的测试工件自动化抽取系统。本文的主要工作为:(1)基于MVC体系风格设计了数据交互、文档数据管理、文档解析以及测试工件抽取模块,其中测试工件抽取模块采用了模版规则和自然语言处理两种抽取方法以兼顾抽取的准确性和泛化能力;(2)对系统的核心模块进行了详细设计和实现;(3)对系统进行了测试,测试结果表明系统功能满足了需求。本文系统能较精准地从装备软件文档中抽取测试工件,可为装备测评人员提供有价值的项目测试知识,并为后续软件测评复用提供数据借鉴。系统基于Spring Boot框架进行开发,以web应用方式向用户提供服务,用户可通过浏览器访问系统进行测试文档上传管理、文档解析、测试工件抽取以及结果数据的下载。目前本文系统已经部署在本单位服务器上试运行且总体效果良好,能够有效缩减测试人员阅读分析测试文档的时间精力,保证测试人员更集中高效地专注于测试工作,从而保障装备软件最终的产品质量。
资产评估报告文档智能分析系统的设计与实现
这是一篇关于资产评估报告,文档解析,要素抽取,命名实体识别的论文, 主要内容为互联网时代企业信息化建设如火如荼,企业电子文档的数量呈现爆炸式增长,对其管理和分析的需求也日益迫切。如何有效地分析和管理海量的非结构化文档,并从中发现对企业有价值的结构化数据,是企业信息化建设面临的重要和困难问题。资产评估报告是一种具有高度专业性和重要信息含量的金融文档,它虽然遵循特定的章节结构,但是内容复杂、篇幅较长、冗余文字过多。本文针对企业资产评估报告信息录入任务的繁琐性和低效性,设计了智能化的方法和工具,实现了对资产评估报告的文档解析和要素抽取。首先,本文分析了资产评估报告的结构和内容特征,据此设计了文档智能分析方案:1)Word文档解析,通过遍历XML节点的方式解析文档内容和章节结构,获得章节文本块。2)建立关键词词典,在人工搜集的关键词基础上,基于资产评估报告文本训练词向量模型,通过word2vec生成同近义词的方式扩充关键词词典。3)评估报告要素抽取,对章节文本块根据关键词词典进行文本分割,获得关键词所属文本;再基于定义好的要素列表,在目标文本中分别使用基于规则和基于命名实体识别的方式抽取键值型要素和实体型要素,将抽取结果存储为结构化数据。其次,基于上述方案,运用软件工程的理论和方法设计并实现了一套功能完备、交互良好的资产评估报告文档智能分析系统,系统具有文档管理、文档分析、数据管理和用户管理等主要功能。该系统通过了周密的线上测试,运行情况良好,实现了设计的目标功能,满足了企业的实际业务需求。本文的创新工作和贡献主要体现在两个方面:一是根据资产评估报告文档的特征和需求,构建了智能分析方案和报告词典,为该类文档的自动处理提供了有效的解决方案;二是针对文档内容复杂的难题,提出了一种先进行文档解析,再根据关键词分割文本,最后用不同方法抽取要素的串行流程方案,提高了信息识别和抽取的准确性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://bishedaima.com/lunwen/49492.html