基于混合式问句相似度的TransMR模型及其应用研究
这是一篇关于知识图谱,问答系统,知识表示学习模型,TransE,问句相似度的论文, 主要内容为近年来,由于网络的发达,知识总量的增加,人们获取到的有用信息却少之又少。常见的搜索引擎使得很多用户不能及时的从网络上获取到有用信息,同时存在噪声数据过多和信息重复等问题,针对此类问题,问答系统应运而生。一方面,问答系统可以从大量的信息中提取到用户需要的有效信息。另一方面,随着医药数字化时代的来临,网络上也出现了多样化且可利用的医药信息,因此,人们对医药信息与问答系统的结合愈发重视,而伴随着知识图谱的迅猛发展,问答系统也不再拘泥于早期的形式,可以引入改进的相关算法和模型以此提升问答系统。本文采用互联网的数据集和中文知识图谱DBpedia部分数据集进行医药问答系统的设计,对候选实体评分排序和知识表示学习的相关模型进行研究并做出相应的改进,对问句相似度的计算提出混合式加权计算方法,并在公开数据集上进行实验验证,在此基础上,设计了医药问答系统。本文的研究内容主要包含以下几个方面:(1)在实体检索模块中,由于问句之间的相似度存在差异,需要考虑到各个特征对问句相似度计算的影响程度,本文引入混合式问句相似度计算,改进单词顺序相似度和编辑距离,并将各个特征的影响程度赋予不同的权重,对各个特征进行加权运算,对加权的特征值进行累加求和,得到最终的问句相似度,混合式问句相似度计算相比于传统的问句相似度计算方法准确率更高。(2)在候选实体排序任务中,知识图谱自带的实体链接工具对候选实体返回的结果是无序列表,为了改善这一现象,本文提出改进的多维评分机制MR-Rank算法对实体评分并从高到低排序,该算法基于实体的语义相似度、单词相似度和上下文相似度,可以有效减少无序实体产生的冗余。(3)为了解决TransE方法无法区分相似性极高的实体和无法处理复杂关系的问题,本文提出一种基于TransE方法的改进知识表示模型TransMR,引入用户输入的问句实体信息和单层神经网络模型,以此来提高区分相似度极高的实体表示和处理实体之间的复杂关系,实验证明本文的方法相比于传统的方法有所提升。本文采用互联网的医药网站获取部分数据集和DBpedia部分数据集并结合上述算法和TransMR模型实现了医药问答系统。
基于知识图谱的广西旅游问答系统研究和实现
这是一篇关于知识图谱,TransE,负样本,问答系统,问句分类的论文, 主要内容为随着互联网时代的飞速发展,生活质量也越来越高,对于旅游需求也日益增强。以旅游业来说,国家在“互联网+旅游”模式上投入了大量的资金,将前沿技术与旅游发展结合起来的策略,已经成为我国旅游业发展的不可缺少的部分。过去,人们通过搜索引擎输入相关的旅游问题后,返回的结果都是一些网页,并没有返回很准确直观的答案。现在,基于知识图谱的问答系统的出现,直接反馈给用户准确简洁的答案,能够让游客减少时间浪费,还可以提高检索的效率,弥补了以往搜索引擎的缺陷。本文以广西旅游为例,构建旅游问答系统,针对游客提出的相关问题予以回答。本文对构建广西知识图谱、问句分类和答案生成等进行了详细的研究。并且通过将自然语言所运用到的相关技术与知识图谱进行结合,实现了一个可满足游客问答需求的广西旅游问答系统。本文的主要工作包括如下几个方面:(1)考虑到从单个网站获取数据存在信息不全的情况,本文利用爬虫工具从百度百科、携程网、途牛网等多个数据源上获取数据。根据抓取到的数据经过处理后导入到Neo4j中,构建了基于广西旅游知识图谱。(2)为了解决翻译模型中的随机生成负样本的不足,以生成高质量的负样本,提高模型的训练效果,提出了一种改进的负样本采样的知识表示学习模型Trans E-KCB。该模型首先引入K-Means++聚类算法,形成不同种类的相似性实体簇,然后,在簇中随机挑选5个实体与被替换实体计算它们之间的相似度,选出排名最高的实体,与被替换的实体进行替换;最后,在此基础上,为了解决“假负例”问题,引入布隆过滤器,对“假负例”进行过滤。实验结果表明,与Trans E等模型相比较,Trans E-KCB模型具有更好的模型表达能力,知识表示的能力有了进一步提升,并利用Trans E-KCB算法对广西旅游知识图谱数据集进行嵌入式表示。(3)首先对现有的问句分类相关体系进行了分析,然后根据问答集知识库的问句特点,对问句分类进行了更为特殊的划分。同时根据知识图谱集中的关系构建了相关的问句分类。在分类算法上,使用朴素贝叶斯算法进行分类。通过问句分类,更快的将问句分配到问答集知识库中的问句上,也更容易匹配到查询语言Cypher上,提高查询的速度。(4)在广西旅游知识图谱基础上,实现了基于知识图谱的问答系统。将传统的问答系统和Trans E-KCB结合起来,使得系统具有更强的推理能力,从而使得问答系统具有智能性。
融合教育知识图谱与协同过滤的成绩预测方法
这是一篇关于知识图谱,协同过滤,时间序列,TransE,推荐算法,成绩预测的论文, 主要内容为近年来,随着我国高校招生规模的不断扩大,学生人数越来越多,在高等教育越来越普及的情况下也给教师的教学带来一些困难。如,老师无法实时了解和掌握每位学生的学习情况,无法及时调整教学方案等。为了更好的评估学生的学习效果,降低学生的不及格率,学生成绩预测尤为重要。利用推荐的方法预测学生的成绩,比其它统计类的预测精度高,可解释性强。但是使用基于推荐的方法预测学生成绩,主要依赖学生的历史成绩,无法体现课程之间的序列特征,同时缺乏课程语义信息,导致预测成绩的准确性受到影响。根据上述问题,本文提出融合教育知识图谱与协同过滤的成绩预测方法,具体工作如下:(1)构建线上线下课程知识图谱。首先获取中国大学MOOC数据和“十一五”、“十二五”的教材数据,根据不同类型的数据进行预处理。再采用自然语言技术里面的TF-IDF和TextRank算法,将线上和线下的内容进行关键字抽取,表示为知识图谱的实体。然后采用Word2vec、Kmeans聚类方法,进行知识图谱的关系抽取并存储。(2)融合时间序列和协同过滤的学生成绩预测方法。由于课程之间具有较强的时间序列特征,学生对课程的兴趣也会随着时间的推移发生动态变化,导致考试成绩预测准确率较低。针对该问题提出融合时间序列和协同过滤的学生成绩预测方法,来揭示课程之间具有较强的时间序列特征,结果表明该方法相对传统的协同过滤方法对学生成绩进行预测的RMSE、MSE和MAE指标有所降低。(3)融合知识图谱与协同过滤的课程成绩预测算法。传统的协同过滤方法预测学生成绩过分侧重于学生的历史成绩,本文通过构建课程知识图谱,将课程的语义信息作为重要的预测依据。课程知识图谱的实体和关系通过TransE模型映射到两个不同的低维度向量空间,通过语义计算课程间的相似度,将课程知识图谱所得到的相似度和协同过滤的相似度进行加权融合,同时加入时间序列特征,来预测学生成绩。实验表明该方法比传统的协同过滤方法误差降低,验证了模型的可行性。采用融合时间序列和协同过滤的学生成绩预测方法,可以揭示课程之间具有较强的时间序列特征。通过构建课程知识图谱并引入语义信息,有助于减少对学生成绩的过度依赖。图[49]表[15]参[90]
基于混合式问句相似度的TransMR模型及其应用研究
这是一篇关于知识图谱,问答系统,知识表示学习模型,TransE,问句相似度的论文, 主要内容为近年来,由于网络的发达,知识总量的增加,人们获取到的有用信息却少之又少。常见的搜索引擎使得很多用户不能及时的从网络上获取到有用信息,同时存在噪声数据过多和信息重复等问题,针对此类问题,问答系统应运而生。一方面,问答系统可以从大量的信息中提取到用户需要的有效信息。另一方面,随着医药数字化时代的来临,网络上也出现了多样化且可利用的医药信息,因此,人们对医药信息与问答系统的结合愈发重视,而伴随着知识图谱的迅猛发展,问答系统也不再拘泥于早期的形式,可以引入改进的相关算法和模型以此提升问答系统。本文采用互联网的数据集和中文知识图谱DBpedia部分数据集进行医药问答系统的设计,对候选实体评分排序和知识表示学习的相关模型进行研究并做出相应的改进,对问句相似度的计算提出混合式加权计算方法,并在公开数据集上进行实验验证,在此基础上,设计了医药问答系统。本文的研究内容主要包含以下几个方面:(1)在实体检索模块中,由于问句之间的相似度存在差异,需要考虑到各个特征对问句相似度计算的影响程度,本文引入混合式问句相似度计算,改进单词顺序相似度和编辑距离,并将各个特征的影响程度赋予不同的权重,对各个特征进行加权运算,对加权的特征值进行累加求和,得到最终的问句相似度,混合式问句相似度计算相比于传统的问句相似度计算方法准确率更高。(2)在候选实体排序任务中,知识图谱自带的实体链接工具对候选实体返回的结果是无序列表,为了改善这一现象,本文提出改进的多维评分机制MR-Rank算法对实体评分并从高到低排序,该算法基于实体的语义相似度、单词相似度和上下文相似度,可以有效减少无序实体产生的冗余。(3)为了解决TransE方法无法区分相似性极高的实体和无法处理复杂关系的问题,本文提出一种基于TransE方法的改进知识表示模型TransMR,引入用户输入的问句实体信息和单层神经网络模型,以此来提高区分相似度极高的实体表示和处理实体之间的复杂关系,实验证明本文的方法相比于传统的方法有所提升。本文采用互联网的医药网站获取部分数据集和DBpedia部分数据集并结合上述算法和TransMR模型实现了医药问答系统。
融合教育知识图谱与协同过滤的成绩预测方法
这是一篇关于知识图谱,协同过滤,时间序列,TransE,推荐算法,成绩预测的论文, 主要内容为近年来,随着我国高校招生规模的不断扩大,学生人数越来越多,在高等教育越来越普及的情况下也给教师的教学带来一些困难。如,老师无法实时了解和掌握每位学生的学习情况,无法及时调整教学方案等。为了更好的评估学生的学习效果,降低学生的不及格率,学生成绩预测尤为重要。利用推荐的方法预测学生的成绩,比其它统计类的预测精度高,可解释性强。但是使用基于推荐的方法预测学生成绩,主要依赖学生的历史成绩,无法体现课程之间的序列特征,同时缺乏课程语义信息,导致预测成绩的准确性受到影响。根据上述问题,本文提出融合教育知识图谱与协同过滤的成绩预测方法,具体工作如下:(1)构建线上线下课程知识图谱。首先获取中国大学MOOC数据和“十一五”、“十二五”的教材数据,根据不同类型的数据进行预处理。再采用自然语言技术里面的TF-IDF和TextRank算法,将线上和线下的内容进行关键字抽取,表示为知识图谱的实体。然后采用Word2vec、Kmeans聚类方法,进行知识图谱的关系抽取并存储。(2)融合时间序列和协同过滤的学生成绩预测方法。由于课程之间具有较强的时间序列特征,学生对课程的兴趣也会随着时间的推移发生动态变化,导致考试成绩预测准确率较低。针对该问题提出融合时间序列和协同过滤的学生成绩预测方法,来揭示课程之间具有较强的时间序列特征,结果表明该方法相对传统的协同过滤方法对学生成绩进行预测的RMSE、MSE和MAE指标有所降低。(3)融合知识图谱与协同过滤的课程成绩预测算法。传统的协同过滤方法预测学生成绩过分侧重于学生的历史成绩,本文通过构建课程知识图谱,将课程的语义信息作为重要的预测依据。课程知识图谱的实体和关系通过TransE模型映射到两个不同的低维度向量空间,通过语义计算课程间的相似度,将课程知识图谱所得到的相似度和协同过滤的相似度进行加权融合,同时加入时间序列特征,来预测学生成绩。实验表明该方法比传统的协同过滤方法误差降低,验证了模型的可行性。采用融合时间序列和协同过滤的学生成绩预测方法,可以揭示课程之间具有较强的时间序列特征。通过构建课程知识图谱并引入语义信息,有助于减少对学生成绩的过度依赖。图[49]表[15]参[90]
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设货栈 ,原文地址:https://bishedaima.com/lunwen/56255.html