基于领域知识库的校园智能问答系统关键技术研究
这是一篇关于校园智能问答系统,领域知识库,问句分类,标签匹配的论文, 主要内容为随着互联网的飞速发展,信息的生产和传播速度与日剧增,如何有效地提高获取信息的效率成为人们广泛关注的焦点。与此同时,具有高效性与便捷性的智能问答系统的出现极大地解决了这一问题。在校园领域内,传统的信息化服务将各种信息分布在不同的部门信息门户下,信息杂乱多样,获取方式低效,这种模式已经满足不了广大师生高效获取信息的需求,因此,本文研究并实现一个易用且高效的校园智能问答系统,该系统作为校园信息获取的统一入口,不仅可以提供准确的问题答案信息,还能提供智能化的校园信息服务(查询成绩、预定教室等)。本文主要从知识库设计,问句分析及答案查询三个方面,结合国内外的研究成果,对校园智能问答系统的关键技术进行研究,主要工作及成果如下:1)通过分析现有的四类智能问答系统的特点和在本文应用环境下的不足,结合校园领域内用户的问题需求,提出了层次多标签知识库与领域知识图谱相结合的领域知识库模式,成功解决了校园智能问答系统中问题处理方式多样、问句信息缺失、问句粒度层次不同、人工构建知识库成本及对问答效率与准确率要求较高等难题。2)对问句进行基于领域词典的分词处理,提高了分词准确性,并对分词结果进行领域词性的标注,提出了领域词性结合问句中心语、关键词作为问句分类特征的SVM分类算法,并通过实验验证其在本文应用背景下的实用性,为后续基于标签匹配的答案搜索策略的生成提供了有力支持。3)制定了服务API的描述标准和规范,提供了标准的注册模板,使得服务API调用能够一体化地纳入层次多标签知识库,能够基于对用户问题的理解自动生成对相应服务API的调用,实现了智能问答形式的校园信息服务(查询成绩、预定教室等)。4)结合层次多标签的结构设计,提出了基于缩减规则的语义依存分析方法(R-SDP),来获取问句标签集,并提出相应的标签匹配算法来查询答案,同时利用领域知识图谱的上下位语义关系与层次多标签结构特征实现了与用户的智能交互。5)最后,基于对以上相关技术的研究,利用现有的开发工具与框架,设计实现了校园智能问答WisQA的原型系统,并基于财务领域的事实数据进行了实验测试,实验结果表明本文的解决方案是有效的。
基于领域的文献检索系统的设计与实现
这是一篇关于文献检索,多特征值计算,领域知识库,词语义转换,文本相似度判别的论文, 主要内容为随着互联网信息检索技术的发展,人们迫切的希望从海量半结构和无结构化的数据中获取与自身需要和兴趣吻合度高的内容,如何对这些文本进行有效的分类,进而发现有价值的信息是各领域研究人员不断探索的话题。本课题通过对近年来各种检索方法进行相关研究,并总结其优缺点提出了使用多种特征值共同计算的领域知识库构建方法,使用深度语义词向量构建文本的方式来判别文本相似度。具体研究内容:本文对基于语义训练模型,特征提取算法,词袋模型的信息检索方式进行了研究,选取了最优的检索方法与模型。通过对数据的选取,模型参数的优化以及多次训练得到高质量的词语义表示模型;使用多特征提取算法计算出文本的多种特征属性值,并以此为基础实现了领域知识库的创建;对文本相似度的相关算法进行研究并实现,系统使用连续词袋模型计算文本的相似度用于文献检索,以此为基础构建了基于领域的文献检索系统并用于实践。通过实验数据对比得出:从语义出发的文本分析反映的文本信息更加全面,结合多特征提取的算法能很大程度改善系统的检索结果。系统根据现有研究成果及文本研究领域人员对文本的使用需求,设计了领域信息工作者可以管理与查询数据资料的文献检索系统,可为不同的用户创建相互独立的数据资料库。系统对资料库之间进行了有效的隔离,使用权限管理系统功能,对领域知识库的管理更新与检索提供了支持。系统利用开源的SSM框架技术进行开发,用户可以管理个人资料库,做到资料库的实时更新。同时,系统提供上传、下载、查看、多特征提取、文献检索等功能。系统的创新之处在于使用多种特征共同计算代替单特征计算的方式,使文本表示更加全面、准确,一定程度解决了文本在计算过程中因信息不完整或文本过于复杂造成的计算不准确问题;使用深度语义模型训练文本语义,基本消除了语言文字歧义及语序变化导致的错误判断结果;在文本相似度研究阶段改变了文本的传统表示方式,从语义出发改变文本的计算方式,一定程度上提高了文本相似度计算的准确性与高效性。
基于领域的文献检索系统的设计与实现
这是一篇关于文献检索,多特征值计算,领域知识库,词语义转换,文本相似度判别的论文, 主要内容为随着互联网信息检索技术的发展,人们迫切的希望从海量半结构和无结构化的数据中获取与自身需要和兴趣吻合度高的内容,如何对这些文本进行有效的分类,进而发现有价值的信息是各领域研究人员不断探索的话题。本课题通过对近年来各种检索方法进行相关研究,并总结其优缺点提出了使用多种特征值共同计算的领域知识库构建方法,使用深度语义词向量构建文本的方式来判别文本相似度。具体研究内容:本文对基于语义训练模型,特征提取算法,词袋模型的信息检索方式进行了研究,选取了最优的检索方法与模型。通过对数据的选取,模型参数的优化以及多次训练得到高质量的词语义表示模型;使用多特征提取算法计算出文本的多种特征属性值,并以此为基础实现了领域知识库的创建;对文本相似度的相关算法进行研究并实现,系统使用连续词袋模型计算文本的相似度用于文献检索,以此为基础构建了基于领域的文献检索系统并用于实践。通过实验数据对比得出:从语义出发的文本分析反映的文本信息更加全面,结合多特征提取的算法能很大程度改善系统的检索结果。系统根据现有研究成果及文本研究领域人员对文本的使用需求,设计了领域信息工作者可以管理与查询数据资料的文献检索系统,可为不同的用户创建相互独立的数据资料库。系统对资料库之间进行了有效的隔离,使用权限管理系统功能,对领域知识库的管理更新与检索提供了支持。系统利用开源的SSM框架技术进行开发,用户可以管理个人资料库,做到资料库的实时更新。同时,系统提供上传、下载、查看、多特征提取、文献检索等功能。系统的创新之处在于使用多种特征共同计算代替单特征计算的方式,使文本表示更加全面、准确,一定程度解决了文本在计算过程中因信息不完整或文本过于复杂造成的计算不准确问题;使用深度语义模型训练文本语义,基本消除了语言文字歧义及语序变化导致的错误判断结果;在文本相似度研究阶段改变了文本的传统表示方式,从语义出发改变文本的计算方式,一定程度上提高了文本相似度计算的准确性与高效性。
基于Hadoop的领域知识库自动构建关键技术研究
这是一篇关于领域知识库,语义,文本聚类,Hadoop,谱聚类并行算法的论文, 主要内容为研究发现,如果把领域知识应用于信息处理的各种技术中,例如信息提取、信息检索、数据挖掘等,都能取得很好的效果,而这些方法能取得很好的效果关键在于存在一个领域知识库。当前,领域知识库的构建需要领域专家大量参与,耗时耗力。随着大数据时代的到来,文本信息呈几何级数增长,如何在海量数据当中准确、快速寻找所需要的知识,以构建领域知识库,是当前研究人员所面临的挑战。与传统构建领域知识库相比,本文提出一种准确性较高、速度较快的构建方案。对构建方案两大关键技术深入研究:1.文本挖掘是一种在文本信息中获取知识的技术,然而,文本数据的高维、稀疏等特性会导致文本特征提取精度下降。特征降维通过删除无关的冗余、噪声特征,达到降维目的,是构建领域知识库的关键技术之一。传统的特征降维技术仅仅考虑特征的统计信息,忽略了特征的语义,所选的特征集往往不能从语义层次完整、准确地表达文档的意思。而中文一词多义和多词同义现象严重,更要充分考虑语义信息。本文提出了一种基于语义降维的思路,通过引用知网(How Net)库,将特征投影到知网语义空间计算语义相似度合并同义词、近义词。通过实验对比,证明了这种方法降低了特征维度。TF-IDF忽略了词的其它特征和语义对关键词的影响,文本提出一种基于TF-IDF、词位置、词跨度以及结合领域知识的知网语义加权算法,实验结果表明,准确率和召回率均有所提升。2.文本聚类是文本挖掘的重要技术,也是构建领域知识库的关键技术之一。本文首先实验串行化文本聚类,实验证明,面对海量数据处理时,串行化文本聚类不能在有效的时间内完成聚类任务。为了解决这个关键问题,对开源分布式平台Hadoop的基本架构及其关键技术--HDFS分布式文件系统和Map Reduce编程模型进行深入研究,并在此基础上设计了基于Hadoop分布式平台的分布式并行文本聚类算法,将文本聚类分成几块并行化:并行构建文本向量、并行矩阵相似度计算、并行矩阵相乘以及并行数据划分。实验结果表明:本文设计的分布式并行文本聚类算法在处理海量的、高维的数据集时具有可行性,时间复杂度大幅降低,聚类效果的准确率和召回率均有所提升。本文实验选择大数据领域本身作为实验对象,构建该领域的领域知识库。基于该库建立术语管理后台;同时,提供领域术语服务和导航服务。
基于本体的自动出题系统的研究
这是一篇关于本体,领域知识库,自动出题系统,推理的论文, 主要内容为随着互联网在全球的发展,信息技术给各个行业注入了新的不同元素。大学的教学方式、内容及其模式在信息技术的推动下正在发生重大的变革。信息技术的发展,使得我们不再局限于使用人工处理信息的方式来对知识进行组织、表示和处理,智能化信息处理呼之欲出。考试,是考核学生学习情况和教师教学效果的一个重要途径之一。传统的考试方式都是在纸上进行的,教师通过自己对知识的理解,对要考试的知识点进行不同的组织和表示,从而形成了不同的考试题目。目前,试题的生成都是通过人工或半自动生成的,且由于中文句子与知识表示的复杂性,目前试题生成策略的智能程度都不高,普遍存在人工干预过多,效率低下等缺陷。为了解决上述问题,本文提出了一种基于本体领域知识库的自动出题系统,使得计算机能真正的理解这些描述性知识,并在此基础上形成出题目生成策略,从而实现试题的自动生成,在很大程度上提高了出题的效率。 本文以本体技术为核心,构建一个对领域概念层次、概念关系、概念定义与概念特征进行形式化描述的领域知识库,并通过知识描述的句型模板与问句模板生成题干。此外,对于试题选项的生成,论文提出了一种基于本体的概念相似度算法,采用概念相似度优先策略生成试题的选项。自动出题系统,一般包括试题的自动产生(题库管理)和自动组卷两个部分。论文主要侧重于选择题的自动产生,从以下几个方面展开研究: (1)基于本体的领域知识库的构建。领域知识库是试题生成的知识来源,它包括了特定领域中概念的定义、特征、概念与概念之间的关联关系等。首先,利用描述逻辑定义领域知识库的概念集、概念层次与概念关系集;然后,以概念关系为基础,在公理集中对抽象概念与概念特征进行定义;最后,统一用本体描述语言对领域知识库进行描述,从而构建一个由领域本体组成的领域知识库。 (2)基于本体领域知识库的选择题的生成策略。选择题的生成包括题干与选项的生成两个部分。在试题生成时,首先从领域知识库中抓取领域知识,获取到其在领域知识库中的知识表示形式。其次,对获取的知识进行结构划分,匹配已定义好的题十句型模块,并根据不同的句型模块,选择不同的题干问句模板,最终形成题干库。在选项生成方面,改进了一种基于本体的概念相似度算法,并根据知识在本体知识库中所形成的概念“家族”树,论文采用基于概念相似度优先策略来生成试题的干扰项。最后,采用一种变异的标准遗传算法,选取存储于题库的试题,生成相应的试卷。经实验对比,这种策略具有知识共享性和可扩展性高、干扰项对正确选项干扰度较高等优点。此外,论文还对填空题以及简答题进行了自动出题,主要介绍了这两种类型试题的生成算法以及其答案的生成过程。 (3)设计并实现一个基于本体的自动出题系统。论文利用J2EE中MVC (Model-View-Control)分层架构思想,设计并实现一个基于本体的自动出题系统。系统主要分为三个层次:表示层、业务逻辑层及数据层。其中,表示层,论文利用JSP体现服务器端与客户端之间数据的变化。业务逻辑层,论文利用HP Labs所提供的Jena来检索本体领域知识库的领域知识,并根据每一领域知识的不同描述匹配不同的题干模板,最终生成不同的试题,形成试题库。数据层,主要包括领域知识库本体和试题库,为上层服务提供可用数据。利用J2EE这一分层思想,可极大的提高系统的可扩展性,且层次结构分明,方便系统后期的维护。 本文所实现的自动出题系统,对领域概念层次、概念关系、概念定义与概念特征进行了形式化描述,从而具备了丰富的领域知识、极强的推理能力以及知识的可扩展性。系统实现了全智能化的自动组卷,且能按照需求对知识的侧重点、描述等有更好的考察。从而,有效的解决了人工出题所存在的费时费力、更新速度慢、效率低下等问题,极大地提高了试卷生成的效率。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://bishedaima.com/lunwen/53288.html