基于语义的标签推荐系统关键问题研究
这是一篇关于个性化推荐,协同过滤,标签推荐系统,语义相似度,相似度计算,标签系统的论文, 主要内容为随着Internet和Web2.0技术的飞速发展,日益严重的信息过载问题推进了个性化推荐系统的快速发展。现有的个性化推荐技术虽然在一定程度上帮助了人们在信息的海洋中寻找到自己喜好的信息,仍而却不能准确的理解用户的喜好,从而影响到推荐的准确率及推荐效果。 本文针对传统个性化推荐系统的局限性,结合标签系统和推荐系统提出了基于语义的标签推荐系统框架。重点分析了标签系统中的各个模块,包括标签的结构分析、标签整理方法、标签选择算法,以及构建基于标签的用户喜好模型。此外,在推荐系统的推荐算法部分,本文提出了基于语义相似度的标签推荐算法,较好地解决了词和词的相似度以及句子和句子的相似度计算问题。 最后,本文通过实验分析来验证所提出的基于语义的标签推荐系统及基于语义相似标签算法,并且同其他主要推荐算法进行了比较。实验结果表明,本文提出的基于语义相似标签推荐算法在推荐精度上有一定的提高。
基于领域知识图谱的FAQ问题匹配研究
这是一篇关于预训练模型,知识图谱,语义相似度,问答系统的论文, 主要内容为FAQ系统的工作原理是将用户提出的问题与问题库中的问题进行匹配,找到语义相似的问题。现有FAQ系统并未针对特定领域进行优化,没有引入领域知识。本文以操作系统领域为例,研究了基于领域知识图谱的FAQ问题匹配。在操作系统FAQ中,用户所提问题通常存在包含缩写、专有名词较多和表述不规范等情况,从而影响了问题匹配结果的效果。此外,用户所遇问题通常与操作系统的操作界面有关,利用截图信息可以有效地增强问题匹配的性能。针对缺少领域知识的情况,本文构建了操作系统知识图谱,以期增强问题匹配的性能。为提高融入知识的准确性,本文提出了知识筛选方法,先从知识图谱中尽可能地选取候选实体,再使用知识筛选模型分析候选实体与问题之间的语义关联,确定相关知识实体。为了充分地利用知识,本文对融入知识的预训练模型K-BERT做出了改进,提出了FK-BERT模型。FK-BERT模型既考虑了单个问题内部实体之间的关系,也考虑了两个问题之间的实体关联关系。针对未充分利用图像信息的情况,本文从领域图像中提取了信息。为了利用操作系统截图中包含的文本,本文使用OCR识别图像中的文本,并使用图像中的文本是否高亮、相对位置和与问题文本的关联程度三个指标,筛选出图像中重要文本。为了将图像文本信息输入FK-BERT模型,本文对模型做出了如下改进:将图像中的每一块重要文本的相对位置设为相同,同时,使图像中的文本对原始问题文本没有注意力影响。实验结果表明,知识筛选步骤能有效的提升融入知识准确性,其对K-BERT和FK-BERT的性能均有所提升。FK-BERT相较于K-BERT模型考虑了更多实体间的关系,融入的知识更完整,在问题匹配上取得了较好的效果。同时,使用领域图像信息增强来优化问题对匹配是有效的,使用图像信息增强的问题匹配,取得了更好的精确率提、召回率和F1得分。此外,本文还实现了操作系统领域的FAQ原型系统,该系统在速度和准确率指标上能较好的满足实际需要。
某企业招聘管理系统的设计与实现
这是一篇关于招聘管理,spring MVC,语义相似度,分词的论文, 主要内容为招聘管理作为人力资源管理的一部分,在整个企业的人力资源管理中发挥了重大作用。现场招聘需要耗费大量的人力成本,经济成本和时间成本,相比而言网络招聘为企业提供了便捷、高效的招聘优质人才的途径。相对传统招聘,网络招聘系统体现出了地域限制少、信息量大、招聘成本低的巨大优势。但是,面对求职者的海量信息,如何高效的管理这些求职信息,在短时间内筛选出适合企业的优质人才,同时将潜在人才资源的信息妥善分类保管,已经成为企业网络招聘管理系统的主要难题。一个具有安全性、可扩展性、可维护性的招聘管理系统,是相当有必要的。 论文中概述了采用CAS单点登陆系统进行登陆,通过用户角色进行鉴权,采用Spring MVC框架与MySQL数据库相结合,设计开发的招聘管理系统。 本文主要介绍了一个为作者实习所在的搜索引擎公司,设计并实现一个高效的企业招聘管理系统。该系统共分为四部分,其一CAS单点登录系统,鉴于该公司内部系统较多,如使用单独的登陆系统,将带来用户数据不统一、开发成本浪费等问题。所以,招聘管理系统采用CAS单点登陆。其二为鉴权系统,招聘管理系统的用户为各个部门的管理人员,以及人力资源部门的工作人员,鉴权系统的目标是实现最小权限原则,面向不同角色的进行访问控制。其三为人才信息处理系统,包含针对求职者信息的筛选,通过,淘汰,通过邮箱、短信等途径发送通知信息等功能。其四为智能推荐部分,针对海量应聘者,系统将根据针对不同职位的描述与应聘者的个人简介进行比较,将两段文字经过分词算法,分别计算并统计出3-5个关键词,在这两段文字的关键词之间进行语义相似度计算。当相似度在75%以上时,系统自动推荐该求职者适合当前职位,并将信息展示给人力资源管理人员。本人主要负责后三个部分的开发工作。
基于知识图谱与协同过滤的饮食推荐算法研究
这是一篇关于饮食推荐,协同过滤,知识图谱,信息抽取,知识图谱嵌入,语义相似度的论文, 主要内容为近年来,随着医学科技的进步和人们生活水平的提高,人类的平均寿命已有很大提高。然而,许多人由于长期持有不健康的饮食习惯,导致一些疾病的发病概率大大增加,例如糖尿病、心血管疾病、消化性溃疡和胃肠炎等。为了帮助人们保持健康的饮食习惯,减小这些的疾病发病概率,本文提出一种基于知识图谱与协同过滤的饮食推荐算法,本文的主要研究工作如下:1、构建饮食领域知识图谱。首先收集饮食领域相关原始实验数据,根据数据来源与数据类型进行相应的预处理。本文经过数据分析,同时结合营养学专家建议,定义了饮食知识图谱的模式层。通过本文提出的Dic-CTR模型对文本数据进行命名实体识别,分别利用BiLSTM模型和加权词典匹配方法对实体间的关系进行分类,考虑到相同的实体在不同的数据源中可能以不同的形式呈现,本文对得到的实体进行实体对齐。最终以OWL本体语言对饮食领域知识图谱进行存储,完成饮食领域知识图谱的构建。2、基于TransHR模型的食谱向量表示。通过将食谱间的语义信息嵌入到低维向量空间中,计算食谱间的语义相似度。传统的知识图谱嵌入模型无法有效处理饮食领域知识图谱中的实体间的复杂关系,本文使用改进的超关系模型TransHR进行知识图谱嵌入。实验结果表明,TransHR模型在链接预测和三元组分类任务上优于所有基线模型。3、提出融合知识图谱与协同过滤的饮食推荐算法。传统基于协同过滤的饮食推荐算法只利用用户评分数据,没有考虑物品本身的语义信息,而用户评分并不是良好的健康指标,很多高评分食谱并不健康。本文通过构建饮食知识图谱引入食谱间的语义信息作为重要的推荐依据。饮食知识图谱中的实体与关系被嵌入到两个不同的低维连续的向量空间,计算食谱间的语义相似度,然后结合协同过滤相似度得出融合相似度,最终根据融合相似度计算预测评分,进而生成推荐列表。相较于传统的基于协同过滤的饮食推荐算法,本文算法充分挖掘了食谱间丰富的内部隐性信息,缓解了数据稀疏性和冷启动问题。实验结果表明,本文算法在饮食推荐任务上效果显著,在召回率、AUC值两项指标方面都有着明显提升。
在线听书系统的设计与实现
这是一篇关于在线听书,书籍搜索,语义相似度,BERT的论文, 主要内容为自古以来阅读便是人与生俱来的行为,通过阅读可以获取信息认识世界,也可以休闲放松陶冶情操。随着互联网的快速发展,许多人的阅读对象逐渐从纸质书转变为电子书。但是生活节奏的加快导致时间越来越碎片化,部分人群难以抽出阅读的时间。另一方面,目前大部分小说平台采用付费模式,用户完整阅读一本书籍的成本较高,因此部分用户转向了质量较差的盗版资源。不仅如此,长时间使用电子屏幕阅读,还会导致视力的下降。而在搜索算法方面,传统的书籍搜索是基于一些搜索引擎实现的,这种方式难以挖掘出书籍之间潜在的语义联系。基于以上问题,本文设计并实现了一个在线听书系统,该系统的开发和实现,主要有以下四点意义:首先,在线听书系统的出现可以吸引用户支持正版,提高了创作者的热情的同时也提高了书籍质量。其次,听书的方式使得用户离开屏幕也能获取书籍信息,充分利用碎片时间的同时也保护了视力。第三,通过文字配音和音乐对书籍内容进行加工,能够提高人们的阅读兴趣,激发人们的阅读欲望。最后,听书使得低教育群体如儿童等也可以在不认识文字的情况下获取信息。本文所介绍的系统中,客户端部分是基于移动设备主流系统之一的i OS进行开发的,服务端部分使用了SSM框架、My SQL数据库和Redis缓存等。该系统主要分为书城、书架、书籍、音频播放、资源搜索、社区广场和个人中心等七个功能模块。其中书城和书架模块用于向用户展示推荐和收藏书籍的简单信息,具体内容信息在书籍模块中展示,音频播放模块是系统的核心模块,用于向用户提供听书功能,资源搜索模块为用户提供了在海量书籍数据中搜索的能力,社区广场为用户提供了一个分享交流的平台,个人中心则让用户可以管理一些个人资料信息。在传统基于搜索引擎的基础上,本文加入了基于语义相似度的搜索方式,该方式一般分为召回和排序两个阶段。在本文中,为了在召回阶段快速从大量书籍数据中获取较为相关的Top K个数据,因此使用Sentence-BERT模型离线完成每本书籍相关的语义向量的计算和存储。在召回阶段,将通过Faiss进行检索以提高效率。对于召回阶段得到的K个结果,在排序阶段会使用BERT模型进行语义相似度的二次计算并重新排序,以提高搜索精度。经测试,在使用SBERT模型召回200本书籍后通过BERT二次排序,耗时约为485毫秒,精确率为84.1%。本课题以本人实习项目为背景,已完成各功能模块的开发与测试工作,目前在线听书系统运行状况良好,达到预期目标与效果。
基于领域知识图谱的FAQ问题匹配研究
这是一篇关于预训练模型,知识图谱,语义相似度,问答系统的论文, 主要内容为FAQ系统的工作原理是将用户提出的问题与问题库中的问题进行匹配,找到语义相似的问题。现有FAQ系统并未针对特定领域进行优化,没有引入领域知识。本文以操作系统领域为例,研究了基于领域知识图谱的FAQ问题匹配。在操作系统FAQ中,用户所提问题通常存在包含缩写、专有名词较多和表述不规范等情况,从而影响了问题匹配结果的效果。此外,用户所遇问题通常与操作系统的操作界面有关,利用截图信息可以有效地增强问题匹配的性能。针对缺少领域知识的情况,本文构建了操作系统知识图谱,以期增强问题匹配的性能。为提高融入知识的准确性,本文提出了知识筛选方法,先从知识图谱中尽可能地选取候选实体,再使用知识筛选模型分析候选实体与问题之间的语义关联,确定相关知识实体。为了充分地利用知识,本文对融入知识的预训练模型K-BERT做出了改进,提出了FK-BERT模型。FK-BERT模型既考虑了单个问题内部实体之间的关系,也考虑了两个问题之间的实体关联关系。针对未充分利用图像信息的情况,本文从领域图像中提取了信息。为了利用操作系统截图中包含的文本,本文使用OCR识别图像中的文本,并使用图像中的文本是否高亮、相对位置和与问题文本的关联程度三个指标,筛选出图像中重要文本。为了将图像文本信息输入FK-BERT模型,本文对模型做出了如下改进:将图像中的每一块重要文本的相对位置设为相同,同时,使图像中的文本对原始问题文本没有注意力影响。实验结果表明,知识筛选步骤能有效的提升融入知识准确性,其对K-BERT和FK-BERT的性能均有所提升。FK-BERT相较于K-BERT模型考虑了更多实体间的关系,融入的知识更完整,在问题匹配上取得了较好的效果。同时,使用领域图像信息增强来优化问题对匹配是有效的,使用图像信息增强的问题匹配,取得了更好的精确率提、召回率和F1得分。此外,本文还实现了操作系统领域的FAQ原型系统,该系统在速度和准确率指标上能较好的满足实际需要。
基于知识图谱的Android恶意软件家族分类研究
这是一篇关于Android恶意软件家族,知识图谱,机器学习,特征选择,语义相似度的论文, 主要内容为随着智能终端设备的普及,各种类型的Android手机已经逐渐深入人们的日常工作与学习中。方便人们生活的同时,Android恶意软件的增长速度也随之呈明显上升趋势,这样的快速增长给恶意软件分析带来了巨大挑战。为了应对这种严峻的恶意软件增长趋势形势,常常先将新得到的恶意软件归类至拥有相似功能的族群中,随后再进行深入研究。因此本文也针对Android恶意软件分类问题进行了分析和研究。本文首先针对分类任务中对Android恶意软件静态特征选择的问题,提出了一个基于知识图谱的恶意特征选择方法,该方法通过组织Android API官方文档信息,构建API知识图谱,以保证API之间的可达性同时更结构化的组织API文档信息,随后从Android危险权限入手,筛选合适的API作为特征。相比于基于专家和基于统计的方法,该方法试图摆脱恶意软件特征选择对于专家知识和数据集的依赖,以追求更好的灵活性、稳定性。其次,本文基于Siamese网络计算不同API之间对于功能描述部分的语义相似度,以进一步完善图谱,同时获取更多合适的API作为特征。进一步地,为了验证所选特征的效果,基于三个知名Android恶意软件数据集(GENOME、Drebin、AMD)设计了大量的家族分类实验,检验所用特征在不同数据集上的分类效果,从实践角度证明其可用性。最后,本文针对恶意软件数据集中样本分布不平衡的问题,在前文基础上加入小样本学习的方法,设计并实现了一个能够自动化Android恶意软件家族分类的工具,大大提高了对恶意软件分类任务的效率。大量分类实验结果均证明,本文提出的恶意软件特征选择架构和分类方式,可以很好的对Android恶意软件进行表征,并在三个大型数据集上分类结果表现优秀(GENOME达到0.960的F1值,Drebin达到0.931的F1值,AMD达到0.984的F1值),同时对Android恶意软件研究与知识图谱的结合提供了很好的参考价值。
文本信息检索模型研究
这是一篇关于信息检索,本体,语义相似度,混合的论文, 主要内容为随着Internet技术的发展,人类已经步入信息时代,网上庞大的数字化信息与人们获取所需信息能力之间的矛盾日益突出,怎样快速准确地检索相关信息已经成为当今信息领域的研究热点。到目前为止,国内外研究组织和公司已经提出了多种信息检索模型并研发出了相应的搜索引擎,这些搜索引擎对于要在网络上获取相关知识的用户起到了一定的导航的作用,但是同时也有不少局限性:返回大量的垃圾信息,重要信息丢失等。 本文首先从研究文本信息检索模型入手,阐述了传统的信息检索模型的基本原理及其算法思想,然后着重介绍了有关领域本体的知识以及在领域本体参照下三种语义相似度的计算模型:基于距离的语义相似度计算模型、基于内容的语义相似度计算模型以及基于属性的语义相似度计算模型。得知这三种语义相似度的计算模型分别从三个不同的分析角度来量化概念之间的语义相似度:(1)基于距离的语义相似度计算模型简单、直观,但它非常依赖预先建立好的概念层次网络,网络的结构直接影响到语义相似度的计算;(2)基于内容的语义相似度计算模型在理论上更有说服力,因为在计算概念之间语义相似度的时候,充分利用了信息理论和概率统计理论的相关知识,但是这种方法不能更细致的区分层次网络中各个概念之间语义相似度的值;(3)基于属性的语义相似度计算模型可以很好的模拟人们平时对现实世界中事物之间的认识和辨别,但是要求对客观事物的每一个属性进行详细和全面的描述。因此,针对这三种计算模型的优缺点和领域本体所特有的性质,提出了一种改进的基于领域本体的语义相似度计算模型,该模型能够比较准确地反映概念之间的语义关系,为概念之间的语义关系提供一种有效的量化。 论文在上述基础上,通过对基于统计的信息检索模型和基于本体的信息检索模型进行分析比较,得知这两种模型在某种程度上互补:(1)基于统计的信息检索模型强调关键字的统计信息,然而忽略了关键字之间的语义信息;(2)基于本体的信息检索模型强调关键字之间的语义信息,然而忽略了关键字的统计信息。结合两种信息检索模型各自的优点提出了一种混合的信息检索模型。通过该模型构建了一种新的信息检索系统的原型,并对该原型系统的几个重要的模块的功能及原理进行了说明。 最后,实验主要采用JSP作开发技术构建了基于C/S模式的文本信息检索系统,通过protégée开发《数据结构》这门课程前三章的领域本体,使用Apache Tomcat 5.0作为Web服务器,采用Microsoft Office XP Access Professional作为数据库构建的实验环境。实验结果证明该原型用于信息检索中,其查全率和查准率方面较基于统计的信息检索模型和基于本体的信息检索模型有了一定的改进。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://bishedaima.com/lunwen/47358.html