基于Web的科学家论文库的设计、分析与实现
这是一篇关于科技文献信息系统,文本摘要,自然语言处理,人工智能的论文, 主要内容为随着人类的科技的日新月异和科学研究的蓬勃开展,用户对科技文献信息系统提出了更高的要求。一个好的科技文献信息系统能够帮助研究人员更好的获取信息。其中,有效的解读和处理非结构化的科技文献数据是构建科技文献信息系统的关键问题。现有科技文献库对科技文献进行了一些基础管理,但是在分析和处理科技文献中的非结构化内容时存在局限性。另一方面,目前的科技文献信息系统并没有针对特定科学家建立信息管理机制,使得用户很难以科学家为信息单元了解其思想,也限制了科学家研究成果的传播。因此,本文设计和实现了一个具有非结构化数据处理能力的智能科学家论文库系统,满足人们对于科技文献的多种内容需求,提高用户获取信息的效率和体验。本文主要有以下贡献:(1)通过对IBM认知系统Watson调研,本文从基础数据层、接口层、应用层和视图层(Web页面)四个方面给出了科学家论文库的具体设计工作。应用层中包含一系列实际应用,这是系统的核心部分,也是系统智能性的体现。基础数据层和接口层为具体的应用研究服务。接口层提供了一系列公共接口对外提供底层数据的访问。视图层根据具体的应用为用户展示系统提供的信息。(2)本文实现了科学家论文库系统,并以文本摘要应用为例说明了如何利用该系统的底层接口和数据结构开展应用研究,验证了系统整体结构设计的合理性。(3)该项工作以具体的Web技术实现了论文库的Web系统,展示了系统为用户提供的多项服务。
基于BERT模型的文本摘要方法研究
这是一篇关于文本摘要,神经主题模型,BERT,知识图谱的论文, 主要内容为在社交网络时代,数据挖掘在信息检索和自然语言处理方面的迅速发展使得自动文本摘要任务成为必要,如何有效地处理和利用文本资源成为研究热点。文本摘要任务旨在将文本转换为包含关键信息的简短摘要。现如今的自动文本摘要方法主要分为抽取式模型和生成式模型。尽管这些模型已经具有较强的编码能力,但是仍然未能解决长文本依赖和语义不准确的问题。因此,本文做了深入研究旨在进一步解决生成摘要与源文本事实不符的一大问题。主要研究工作如下:(1)研究基于主题嵌入的自动文本摘要方法。该部分研究旨在通过主题建模获得文本的主题编码信息,进而指导文本的生成方向。但是基于词同现的主题建模并不能很好地解决文本中信息与词汇有限的问题。故本文基于神经主题模型,提出一种基于BERT的主题感知文本摘要模型。该方法利用神经主题模型编码的潜在主题嵌入表示与BERT的嵌入表示相匹配,引导主题生成以满足文本语义表征的要求,通过transformer架构以端到端的方式共同探索主题推理和摘要生成,由自注意力机制建模长距离依赖的同时捕捉语义特征。在此基础上,建立的两阶段抽取-生成模型,能够实现信息和优势共享。实验结果取得了高于基线模型的ROUGE得分,表明了主题表示对语义表征的重要性并且证实了该方法的有效性。(2)研究带有知识增强的抽象文本摘要方法。该部分研究内容针对生成摘要存在虚假信息与源文本事实不符的问题,旨在生成既保留原文主题信息,也注重生成事实一致性的文本。故本文提出了一种基于BERT的知识增强文本摘要模型,引入知识图谱获得额外的结构化知识,使用文档编码器和知识图编码器驱动模型在获取上下文特征时和结构化信息相互补充。同时提出子主题概念对段落单独编码以便解码器集成选择文档级知识。此外,在训练阶段利用FCM算法注入评论性语句,加强模型的生成能力。通过自动评估和人工评估,在CNN/Daily Mail和XSum数据集上的实验证明了模型有能力捕捉到原文主题和正确的信息,提高摘要的事实准确性。
基于Web的科学家论文库的设计、分析与实现
这是一篇关于科技文献信息系统,文本摘要,自然语言处理,人工智能的论文, 主要内容为随着人类的科技的日新月异和科学研究的蓬勃开展,用户对科技文献信息系统提出了更高的要求。一个好的科技文献信息系统能够帮助研究人员更好的获取信息。其中,有效的解读和处理非结构化的科技文献数据是构建科技文献信息系统的关键问题。现有科技文献库对科技文献进行了一些基础管理,但是在分析和处理科技文献中的非结构化内容时存在局限性。另一方面,目前的科技文献信息系统并没有针对特定科学家建立信息管理机制,使得用户很难以科学家为信息单元了解其思想,也限制了科学家研究成果的传播。因此,本文设计和实现了一个具有非结构化数据处理能力的智能科学家论文库系统,满足人们对于科技文献的多种内容需求,提高用户获取信息的效率和体验。本文主要有以下贡献:(1)通过对IBM认知系统Watson调研,本文从基础数据层、接口层、应用层和视图层(Web页面)四个方面给出了科学家论文库的具体设计工作。应用层中包含一系列实际应用,这是系统的核心部分,也是系统智能性的体现。基础数据层和接口层为具体的应用研究服务。接口层提供了一系列公共接口对外提供底层数据的访问。视图层根据具体的应用为用户展示系统提供的信息。(2)本文实现了科学家论文库系统,并以文本摘要应用为例说明了如何利用该系统的底层接口和数据结构开展应用研究,验证了系统整体结构设计的合理性。(3)该项工作以具体的Web技术实现了论文库的Web系统,展示了系统为用户提供的多项服务。
基于深度学习的OJ题库智能分析系统的研究与实现
这是一篇关于OJ平台,Bert,文本摘要,遗传算法,自动组卷,微服务的论文, 主要内容为随着国家和社会对编程教育重视程度的不断提高,各中小学的信息技术课程越来越注重学生们的编程能力培养,越来越多的中小学生开始使用OJ平台进行编程与算法的练习。相比大学生和成年人,学生们在使用OJ平台时需要更多的引导和帮助,但目前主流OJ平台设计的一些指引功能需要进行大量的数据标注,费时费力,且功能不够完善,学生们使用OJ平台时仍会遇到很多问题。因此需要为OJ平台增加更多智能、便捷的功能,以提升学生们在使用OJ平台时的学习积极性。本文对OJ平台海量题库的智能分析展开研究,设计了 OJ题目生成和OJ题目自动组卷两种便捷功能,不仅可以引导学生更好地理解题意,也为学生提供了模拟OJ竞赛的途径。针对OJ题目摘要模型的研究,提出了一种基于符号优先级的自适应分句算法,并采用机器摘要和人工筛选相结合的方式构建研究数据集。选取BertSum模型为基线模型,针对OJ题目特点,设计了基于TextCnn算法的词向量卷积处理模块和词句向量融合模块,提出了改进的抽取式摘要模型C-BertT。最终通过开展不同数据集上的对比实验验证改进的有效性。课题基于遗传算法进行了 OJ题目自动组卷方法的研究,首先通过网络爬虫的方法构建OJ竞赛数据集。然后在传统遗传算法的基础上,提出了适合OJ题目的冗余分段编码方案,并对基于相似度的OJ题目适应度计算方法进行了研究与设计,最后详细设计了算法中的遗传算子模块,并开展了相关实验,对组卷结果的各指标进行了分析。最后,本文从软件工程的角度出发,设计并实现了基于微服务架构的OJ题库智能分析系统,实现了 OJ题目摘要和自动组卷功能,并通过功能测试、性能测试和鲁棒性测试验证系统达到了预期效果,帮助学生们更加方便、快捷地使用OJ平台。
基于主题分析模型的文本推荐和摘要生成方法研究
这是一篇关于文本相似度,文本摘要,文本推荐,主题模型,知识图谱,GPU多线程加速的论文, 主要内容为随着互联网相关技术的不断发展,网络也成为了人与世界沟通必不可少的桥梁。网络中每天都会产生数量极大的文本数据,而如何从大量的网络文本信息中获取到用户喜好的文本信息,便成为了一个热点问题。同时,随着现代人的生活节奏不断加快,大多数人很难花费大量的时间去阅读长篇的报道或是文章,因此,从文章中提取文章的主要信息生成摘要,便可以方便去选择需要阅读的文章。文本推荐与文本摘要生成是常见的自然语言处理任务,文本推荐会根据输入查询序列和文本之间的相似度,挑选出内容相似的文章进行推荐。文本摘要生成,则需要通过分析文本中词汇的关系,提取出长文本中的核心信息予以展示。但常见的文本推荐和摘要模型仅利用了文本表面的字符信息和时序信息,而无法获得到其更深层次的主题特征。同时,此类模型也会因为没有外部知识的引入从而导致常识性问题。所以,本文将分别在文本推荐方法与文本摘要生成方法两个方面做出改进,分别在主题特征,常识知识与后台支持三个方面进行相关研究,并依此对文本分析功能做出实现。其一,文本之间存在语义信息和字符信息的联系,提取出更好的文本特征可以有效的提升下游任务的最终效果。本文提出了在原始文本信息的基础上,通过概率主题模型提取文本隐含的主题特征,知识图谱嵌入获得常识知识,并根据主题特征和常识知识对原始文本信息进行补充,从而将主题层面的语义信息和常识知识引入到文本推荐任务中的方法。同时,文本主题的分析也可以对文本数据中的主题权重进行可视化的分析,从而展示文本中各个主题的关键词。最后通过实验,验证了知识图谱嵌入和主题特征引入的改进方法可以得到更精确的文本相似度,达到了更好的文本推荐效果。其二,文本的摘要根据产生方式的不同分为生成式摘要和抽取式摘要,本文针对生成式摘要生成模型做出了探讨,并分析了常见模型的原理与优劣。之后提出了基于主题注意力的特征修正方法,通过为摘要生成模型引入主题特征的方式,对文本摘要的生成进行了修正。最后通过实验,验证了该方法的有效性。其三,概率主题模型在训练和测试时需要反复进行概率分布采样操作,因此采样的速度极大的影响了模型的训练和测试速度。本文基于GPU的多线程加速算法,建立了概率主题模型工具包,通过在系统底层对常见概率分布的采样算法进行了并行化加速,同时整理、优化了常见的概率主题模型,为概率主题模型的学习与研究提供相应的工具支持。该工具包的采样速度在同类工具包中具有一定的优势。
基于Web的科学家论文库的设计、分析与实现
这是一篇关于科技文献信息系统,文本摘要,自然语言处理,人工智能的论文, 主要内容为随着人类的科技的日新月异和科学研究的蓬勃开展,用户对科技文献信息系统提出了更高的要求。一个好的科技文献信息系统能够帮助研究人员更好的获取信息。其中,有效的解读和处理非结构化的科技文献数据是构建科技文献信息系统的关键问题。现有科技文献库对科技文献进行了一些基础管理,但是在分析和处理科技文献中的非结构化内容时存在局限性。另一方面,目前的科技文献信息系统并没有针对特定科学家建立信息管理机制,使得用户很难以科学家为信息单元了解其思想,也限制了科学家研究成果的传播。因此,本文设计和实现了一个具有非结构化数据处理能力的智能科学家论文库系统,满足人们对于科技文献的多种内容需求,提高用户获取信息的效率和体验。本文主要有以下贡献:(1)通过对IBM认知系统Watson调研,本文从基础数据层、接口层、应用层和视图层(Web页面)四个方面给出了科学家论文库的具体设计工作。应用层中包含一系列实际应用,这是系统的核心部分,也是系统智能性的体现。基础数据层和接口层为具体的应用研究服务。接口层提供了一系列公共接口对外提供底层数据的访问。视图层根据具体的应用为用户展示系统提供的信息。(2)本文实现了科学家论文库系统,并以文本摘要应用为例说明了如何利用该系统的底层接口和数据结构开展应用研究,验证了系统整体结构设计的合理性。(3)该项工作以具体的Web技术实现了论文库的Web系统,展示了系统为用户提供的多项服务。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码小屋 ,原文地址:https://bishedaima.com/lunwen/46226.html