基于Flink的专家智库实时推荐系统的设计与实现
这是一篇关于实时推荐,流计算引擎,多路召回,相似度匹配,专家智库的论文, 主要内容为随着科学技术的蓬勃发展,论文和专利等学术成果与日俱增,但同时也带来了信息过载问题。为了缓解这一问题,专家智库平台应运而生,提供了丰富的学术资源和检索功能。然而,现有的专家智库平台普遍存在强检索弱推荐问题,即使有推荐服务,其策略也往往以领域主题推荐等离线推荐为主,忽视了用户的即时兴趣。此外,专家智库平台的海量学术资源也对推荐系统的性能提出了极高要求。因此,为专家智库平台提供高性能的能捕捉即时兴趣的实时推荐服务,具有极高的价值和意义。针对以上问题,本文设计并实现了基于Flink的专家智库实时推荐系统,重点工作包括以下几个方面:(1)设计并实现了三段式的基于Flink的实时流处理推荐架构方案。该架构方案有效融合了 Lambda架构和Kappa架构的优点,并与基于Storm的Lambda架构方案进行对比实验,实验结果验证了本文架构方案在吞吐量和时延上均有较大提升。(2)提出了面向专家智库的多路召回实时推荐策略。该策略将协同过滤推荐、基于内容的推荐等离线推荐策略与基于热度的推荐、实时协同过滤推荐等实时推荐策略进行结合,并针对专家智库平台多场景推荐特色进行定制化融合策略。最终通过使用平台采集的真实用户数据进行消融实验和分支对比实验,实验结果验证了本文策略在命中率、召回率和NDCG指标上均有所提升。(3)搭建了带实时推荐的专家智库平台。该平台系统使用SpringBoot框架进行后端开发,使用Vue.js和Nuxt.js进行了前端开发,使用MySQL作为关系型数据库,搭建于阿里云ECS服务器上。该平台系统实现了首页推荐功能、项目与研讨功能、检索功能、工作台功能和管理员功能等模块,功能完备。并且,该平台系统经过功能测试与性能测试后已经上线运营。
基于Flink的专家智库实时推荐系统的设计与实现
这是一篇关于实时推荐,流计算引擎,多路召回,相似度匹配,专家智库的论文, 主要内容为随着科学技术的蓬勃发展,论文和专利等学术成果与日俱增,但同时也带来了信息过载问题。为了缓解这一问题,专家智库平台应运而生,提供了丰富的学术资源和检索功能。然而,现有的专家智库平台普遍存在强检索弱推荐问题,即使有推荐服务,其策略也往往以领域主题推荐等离线推荐为主,忽视了用户的即时兴趣。此外,专家智库平台的海量学术资源也对推荐系统的性能提出了极高要求。因此,为专家智库平台提供高性能的能捕捉即时兴趣的实时推荐服务,具有极高的价值和意义。针对以上问题,本文设计并实现了基于Flink的专家智库实时推荐系统,重点工作包括以下几个方面:(1)设计并实现了三段式的基于Flink的实时流处理推荐架构方案。该架构方案有效融合了 Lambda架构和Kappa架构的优点,并与基于Storm的Lambda架构方案进行对比实验,实验结果验证了本文架构方案在吞吐量和时延上均有较大提升。(2)提出了面向专家智库的多路召回实时推荐策略。该策略将协同过滤推荐、基于内容的推荐等离线推荐策略与基于热度的推荐、实时协同过滤推荐等实时推荐策略进行结合,并针对专家智库平台多场景推荐特色进行定制化融合策略。最终通过使用平台采集的真实用户数据进行消融实验和分支对比实验,实验结果验证了本文策略在命中率、召回率和NDCG指标上均有所提升。(3)搭建了带实时推荐的专家智库平台。该平台系统使用SpringBoot框架进行后端开发,使用Vue.js和Nuxt.js进行了前端开发,使用MySQL作为关系型数据库,搭建于阿里云ECS服务器上。该平台系统实现了首页推荐功能、项目与研讨功能、检索功能、工作台功能和管理员功能等模块,功能完备。并且,该平台系统经过功能测试与性能测试后已经上线运营。
企业扶持政策的精准匹配推荐模型与系统实现
这是一篇关于推荐系统,关键词提取,相似度匹配,向量空间模型,评分模型的论文, 主要内容为近年来,为深化“放管服”改革,优化营商环境,提升国内企业的发展,政府出台相关扶持政策,用于帮扶企业加速转型升级,这对企业健康发展和社会稳定有着深远的意义。但由于扶持政策分散于各政府官网,企业对扶持政策的获取方式单一,政府与企业之间缺乏有效的政策传输渠道,使得企业无法及时准确地获取相关扶持政策,从而导致扶持政策无法被高效利用。因此,本文基于自然语言处理技术,融合企业的多种信息,建立一种企业扶持政策精准匹配推荐系统,能够准确和高效的为企业推荐相关扶持政策,实现企业与扶持政策的精准对接,有利于推动政府落实扶持政策。本文以佛山市扶持通项目为依托,设计并实现了企业扶持政策精准匹配推荐系统,达到为企业精准推荐相关扶持政策的目的。论文的主要研究工作如下:首先,本文通过对推荐系统理论与技术的研究分析,主要对文本预处理、关键词权重、关键词提取、向量空间模型和企业综合能力评分模型进行深入研究,为企业扶持政策精准匹配推荐模型的建立与系统的实现奠定了理论基础。其次,通过爬取政府官网的扶持政策和系统中输入的企业信息作为基础数据,通过修改词语初始权重的方法,对传统的Text Rank算法进行改进,将改进的Text Rank算法和LDA主题模型对扶持政策和企业信息分别提取关键词和主题词,将所提取的关键词和主题词共同作为企业信息和政策信息的特征表示。通过实验结果分析,改进的关键词提取算法具有较高的准确率。再次,通过预先构建政策特征向量空间模型索引库来提高系统运行效率,利用得到的企业特征与政策特征关键词,采用Skip-gram模型和DBOW模型建立企业特征与政策特征向量空间模型,计算向量空间模型间的相似度,得到扶持政策的初始推荐结果。最后,构建企业扶持政策精准匹配推荐模型。融合企业多种信息,通过建立的企业综合能力评分模型作为加权因子,并结合相似度进行权重分配,计算综合匹配得分,得到扶持政策的最终推荐结果。通过实验结果分析,企业扶持政策精准匹配推荐模型具有较高的准确率和覆盖率。本文设计的企业扶持政策精准匹配推荐系统,实现了为企业精准推荐合适的扶持政策,表明了该系统具有可行性和有效性,加强了政府与企业的信息交流,给企业带来了一定的经济效益。
基于深度学习的民国纸币图元素检测匹配
这是一篇关于民国纸币图元素,相似度匹配,目标检测,YOLO v4,主景图,深度学习的论文, 主要内容为民国时期,纸币的发行机构众多,发行券种多样。纸币设计防伪和雕刻的手法反映了当时的印刷技术,纸币主景图的设计反映了当代历史文化特征,签名和印章与历史人物密切相关。由于其独特的历史和文化背景,民国纸币成为国内文物研究工作者聚焦的热点。博物馆收集了大量民国纸币,种类繁多、排列杂乱、检索困难。实现纸币上各类图元素的自动标注,完成纸币的自动检索和匹配,对博物馆民国纸币的研究工作有重要应用价值。本论文针对民国纸币图元素检测与匹配问题,结合深度学习开展研究工作。总结现有目标检测算法和图像匹配算法的工作流程,设计民国纸币快速检测方法,实现图元素精准检测和定位,完成各类图元素数据集制作;设计民国纸币匹配方法,提取民国纸币主景图组合的深层特征,实现民国纸币的分类检索,将深度学习方法应用到纸币检测与匹配领域。主要工作如下:(1)采用基于YOLO v4模型的民国纸币图元素检测识别算法,对纸币图像中的图元素进行识别和回归定位。YOLO v4模型是一种高效而强大的模型,在各项目标检测任务中都取得了优异的成绩,但民国纸币图像种类多,数量少,还存在破损、毛边、背景边框和倾斜等情况,影响实际检测效果。为此,首先对民国纸币图像进行预处理,实现去噪、图像增强和倾斜校正,再结合相关应用要求,制作特定数据集。然后针对数据集样本过小的问题,引入COCO数据集上的训练权重进行预训练,根据预训练结果额外进行困难数据增强,对模型进行训练调整,得到基于YOLO v4的民国纸币图元素检测模型。实验结果表明,在民国纸币数据集上,与YOLO v3模型、SSD模型以及Faster R-CNN模型相对比,此模型的mAP分别提升了 10.65%、21.13%和12.49%,对角花、花符、主景图、签名、印章检测的平均精确率均值在90%以上。实现了民国纸币图元素的实时检测和各类纸币图元素数据库的建立。(2)提出以主景图组合为特征的民国纸币弱监督匹配方法。在纸币图元素检测识别和定位的基础上,选择图元素主景图对纸币进行匹配,以实现具有相似主景图纸币的分类。针对数据集样本中主景图的数量差异和类别差异,结合检测模型的结果,设计了纸币主景图组合方案和特定的标签编码规则。通过对主景图的分类实验,选择提取主景图特征效果最佳的EfficientNet作为特征提取的主干网络。整合特征提取网络结构,连接检测模型、主景图组合模块与主干网络,实现民国纸币主景图组合的特征提取。在网络训练中引入加权交叉熵损失函数,缓解了主景图类别间数量不平衡的问题。根据人工分类的纸币结果验证匹配效果,实验结果表明,以主景图组合为输入的匹配模型准确率为86.8%,比以原图为输入的匹配模型准确率提升5.6%左右。(3)为实现相似图元素纸币检索,提升匹配的准确性和模型使用的可持续性。将特征提取网络中第2层、第4层、第10层以及第15层的特征图融合,建立纸币主景图组合的特征向量库。使用自适应K均值的特征向量聚类方法,实现特征向量预分类,结合相似度匹配实现纸币的检索。经过K折交叉验证,匹配准确率提升至89.6%。分析检索结果发现,纸币主景图与其时代背景、发行机构间有一定的关联,有利于新入库纸币的收集整理,有利于博物馆构建民国纸币主景图相关知识图谱。
基于知识图谱的医疗智能问答系统研究与应用
这是一篇关于知识图谱,命名实体识别,相似度匹配,ERNIE2.0-Bi-LSTM-AT-CRF-FL,智能问答的论文, 主要内容为随着网络信息的快速发展,使用百度等搜索引擎返回的搜索结果信息量较大,而且相当多的信息和搜索问题关联性不大,这使得搜索效率较低,用户很难找到满意的答案。因此,能够快速准确地提供用户所需信息的搜索引擎受到了越来越多的欢迎,出现了华为小E、苹果Siri等智能助手。近些年随着知识图谱的不断发展,用知识图谱进行存储,并为问答系统、语义搜索、情报分析等应用提供知识基础。在人工智能日益发展的时代,问答系统备受人们关注,通过利用知识图谱的思维方法,可以把用户的提问转化成逻辑清晰的表达,从而更好地理解他们的需求。基于知识图谱的智能问答系统包含很多方法技术,已经形成了一定的体系结构,如在知识图谱的构建与存储过程中使用的命名实体识别、关系抽取、实体融合、知识推理等技术;在问答系统中基于自然语言的检索方式上也有使用如文本语义匹配、意图识别、语义优化方法、语义检索优化方法等。其中,命名实体识别与文本匹配是整个基于知识图谱的智能问答系统的关键技术方法,本文通过改进创新这两种方法来提高知识图谱的质量与问答系统的回答准确率。本文主要研究基于知识图谱的医疗智能问答的关键技术与应用,主要包括:(1)针对中文命名实体识别任务存在的一词多义现象以及标签分类不均衡的问题,提出一种基于ERNIE2.0预训练模型的命名实体识别方法。该方法通过加入软注意力机制来提高关键词的权重,并且融合焦点损失函数来均衡标签。实验结果表明,该方法在命名实体识别任务上取得了较好的效果。(2)针对汉语句子结构复杂,经常出现一词多义的情况,且目前许多方法只能通过利用句子中的关键词来进行句子相似度计算,提出一种基于多特征融合和孪生网络结合的问句相似度计算方法。该方法通过提取句子6种不同的特征向量,拼接融合后输入孪生网络来实现两个问句的相似度判断。通过分析权威网站,构建了一个22191对的医疗相关问句数据集,并用此数据集来检验本方法的有效性。实验证明,本方法在数据集上取得了较好的相似度匹配结果。(3)构建了基于知识图谱的医疗智能问答系统。通过爬虫技术从卫生部认证的权威医药网站抽取知识构建知识图谱。本系统重点关注于四个模块:问题分类、命名实体识别、模板匹配、翻译和查询。其中,AC算法被应用于问题的初步分类,ERNIE2.0-Bi-LSTM-AT-CRF-FL模型则被应用于命名实体识别,以提高识别准确性和效率。在实体识别之前先利用分词技术进行分词,通过模版匹配,可以将输入的问题与问题分类、实体识别结果等信息进行有效的整合,并将其与问题模块库中的模版进行比较,从而生成Neo4j查询语句,实现知识图谱的查询。本文主要改进了命名实体识别方法与句子相似度计算方法,并且通过创建医药知识图谱来完成基于知识图谱的医疗智能问答系统的构建。实验证明,本文所改进的命名实体识别方法与句子相似度计算方法都有较好的效果。用户在问答页面输入问题后,系统通过查询知识图谱并匹配翻译答案后可以输出比较精确的答案。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设客栈 ,原文地址:https://bishedaima.com/lunwen/50087.html