基于深度学习的百科知识推荐系统设计与实现
这是一篇关于推荐系统,深度学习,百科知识,多路召回的论文, 主要内容为随着互联网的普及,越来越多的人能够参与到互联网的世界中来,互联网世界的内容也越来越丰富;随着社会的发展以及科技的进步,手机现在也变得越来越普及,越来越多的人能够使用手机来体验互联网的魅力。手机的功能现在已经不仅仅是用来作为通信的工具了,更多的扮演的是一个人们与互联网世界进行交互的接口。人们通过手机来访问互联网,以此来查询资料、获取信息来了解世界。然而,随着互联网信息量的指数式增长,人们现在面对的问题是,如何在这种信息的海洋中找到自己感兴趣的、与自己需求相匹配的内容。推荐系统也就是在这种信息过载的背景下应运而生。推荐系统要解决的就是如何将互联网的庞大的信息量,精准地推送给对它感兴趣的网络用户。本文设计和实现了一个基于手机APP应用场景的百科知识推荐系统,该系统的主要的功能是向用户推荐他们会感兴趣的各种百科知识。论文中描述了知识推荐系统的背景,并介绍了所采用的推荐模型,同时对推荐系统的实验评估方法也进行了简单地介绍。通过对实际应用场景以及流程的分析,确定了数据采集及预处理、模型构建、召回、排序以及推荐评估等五个系统模块。系统在召回阶段采用了多路召回技术,在推荐结果排序阶段采用了CTR(Click Through Rate)预估模型来进行点击率预估、排序。为了能够在线上有效的评估推荐系统所使用的各个模型,比较各模型在实际应用场景中的效果,还对系统进行了AB测试,通过实际应用场景下的点击率来比较模型的效果。本文所述的个性化百科知识推荐系统,已正式投入线上运行,系统提供的个性化百科知识推荐功能,能够很好地帮助用户发现其感兴趣的百科知识。于用户而言,系统能够很大程度上帮助其发掘兴趣,提升了用户使用软件产品时的体验;对软件产品而言,提高了用户留存率,也能够吸引更多的新用户。同时,在系统实现的过程中,解决了一些将深度学习模型应用于实践时将会产生的工程性问题,为以后解决此类的问题提供了有价值的参考。
基于深度学习的百科知识推荐系统设计与实现
这是一篇关于推荐系统,深度学习,百科知识,多路召回的论文, 主要内容为随着互联网的普及,越来越多的人能够参与到互联网的世界中来,互联网世界的内容也越来越丰富;随着社会的发展以及科技的进步,手机现在也变得越来越普及,越来越多的人能够使用手机来体验互联网的魅力。手机的功能现在已经不仅仅是用来作为通信的工具了,更多的扮演的是一个人们与互联网世界进行交互的接口。人们通过手机来访问互联网,以此来查询资料、获取信息来了解世界。然而,随着互联网信息量的指数式增长,人们现在面对的问题是,如何在这种信息的海洋中找到自己感兴趣的、与自己需求相匹配的内容。推荐系统也就是在这种信息过载的背景下应运而生。推荐系统要解决的就是如何将互联网的庞大的信息量,精准地推送给对它感兴趣的网络用户。本文设计和实现了一个基于手机APP应用场景的百科知识推荐系统,该系统的主要的功能是向用户推荐他们会感兴趣的各种百科知识。论文中描述了知识推荐系统的背景,并介绍了所采用的推荐模型,同时对推荐系统的实验评估方法也进行了简单地介绍。通过对实际应用场景以及流程的分析,确定了数据采集及预处理、模型构建、召回、排序以及推荐评估等五个系统模块。系统在召回阶段采用了多路召回技术,在推荐结果排序阶段采用了CTR(Click Through Rate)预估模型来进行点击率预估、排序。为了能够在线上有效的评估推荐系统所使用的各个模型,比较各模型在实际应用场景中的效果,还对系统进行了AB测试,通过实际应用场景下的点击率来比较模型的效果。本文所述的个性化百科知识推荐系统,已正式投入线上运行,系统提供的个性化百科知识推荐功能,能够很好地帮助用户发现其感兴趣的百科知识。于用户而言,系统能够很大程度上帮助其发掘兴趣,提升了用户使用软件产品时的体验;对软件产品而言,提高了用户留存率,也能够吸引更多的新用户。同时,在系统实现的过程中,解决了一些将深度学习模型应用于实践时将会产生的工程性问题,为以后解决此类的问题提供了有价值的参考。
新闻推荐系统的设计与实现
这是一篇关于推荐系统,多路召回,transformer,android studio的论文, 主要内容为随着信息时代的来临,越来越多的人在线读取新闻报道。但是在网络上有几百万篇来自不同渠道,不同领域的新闻报道,使用户迷失在海量数据中。新闻推荐系统就是帮助用户找到感兴趣的内容,减轻信息过载问题,并且会给用户推荐一些他们可能感兴趣的新闻。现有研究往往针对排序阶段的模型进行设计或改进,却很少有论文强调召回阶段对推荐性能的影响。这主要是因为召回阶段需要根据当前的业务场景,设计出适合当前业务场景的召回策略,往往没有普适性,需要具体问题具体分析。但是召回阶段却非常重要,因为它不仅能大大减少推荐的运算时间,还能提高推荐的准确度。排序阶段也不可或缺,因为它可以使模型的精度进一步提升。目前的多数模型使用双向LSTM或者双向GRU加attention机制学习用户的历史行为进行下一次点击预测。但是上述方法存在梯度消失的问题,因此无法充分获取物品之间的关系,导致推荐性能下降。本文设计和实现了一个新闻推荐系统,提出一个多路召回策略降低数据规模,提出一个基于transformer的排序算法学习用户的点击序列特征,从而实现新闻推荐。(1)召回阶段。召回阶段的目的是利用少量特征和简单的模型或者规则进行候选集的快速筛选,将海量的数据集快速缩小为几百到几千的规模,减少精准排序阶段的时间开销。由于每种召回策略都有各自的优势和不足,将多种召回方式进行融合,“扬长避短”,可以得到适用于具体业务场景的候选集。因此本文提出一种多路召回策略,融合基于deepwalk的召回,基于Node2Vec的召回等方法,并通过实验验证了多路召回融合策略的有效性。(2)排序阶段。排序阶段的目的是使用复杂模型,利用多特征进行排序,得到更精确的排序结果。在这一阶段,需要处理的物品数量少,可利用较多特征。本文使用双塔模型,首先将序列特征信息输入到双塔模型的第一塔中,将每个文章的类别信息输入到第二个塔中,然后通过embedding将独热编码映射到低维稠密空间,接着再传入到transformer模型。最后将这两部分输出的向量进行拼接,经过全连接层和softmax函数,得到最后的预测结果。通过实验验证本文提出的基于transformer的序列化推荐更高效。(3)本文基于上述两个阶段的算法设计和实现了一个基于安卓的新闻推荐系统。系统由前端展示界面和后端服务器系统两部分组成。前端面向用户,收集用户信息,后端进行数据预处理,特征工程,算法优化。本文利用android studio工具渲染前端界面,利用kafka搜集用户信息,利用非关系型数据库mongo DB进行数据存储。通过测试表明系统的可用性和稳定性。
智库文本辅助系统研究与应用
这是一篇关于智库文本,语义相似度计算,预训练语言模型,多路召回,近似最邻近搜索的论文, 主要内容为随着时代的进步和中国的发展,智库在国家治理、科学决策中的地位作用愈发凸显,中国特色新型智库建设成为一项重大而紧迫的任务。智库建设发展走了上快车道,信息技术辅助智库建设发展也被提上了日程。现有系统文本查询算法在语义信息挖掘不足,传统软件架构应对大规模矢量数据的处理能力也不足,制约了已有智库成果的运用。为解决上述问题,本文主要开展了以下工作:(1)智库领域文本语义相似度计算研究。对智库文本相似度计算的需求特点与智库文本特性进行分析,提出基于TF-IDF权重指导预训练模型BERT自监督继续训练的TFIDF-MLM掩码方法,累加和大于阈值的词进行MLM训练,以实现具有针对性的学习领域文本。基于Sentence-BERT孪生结构改进BERT输出表征向量和后端接入结构,提出TTT-BERT结构进行微调监督训练,通过监督训练的方式得到各层Transformer向量组成句文本表示向量权重,以实现对预训练和继续训练中各Transformer学习到不同特征进行充分利用的目的。基于近似最邻近搜索算法(ANNS)设计了文本相似匹配方法,极大减少了文本相似匹配查询时间。(2)构建数据集并进行实验验证改进算法和模型。采用网络爬虫技术,对省级发展研究中心、人民日报、光明日报等智库文章站点采集文章并对其进行数据清洗,采用多路召回策略,用常见相似匹配算法建立相似候选集,再随机选取部分数据进行人工标注,建立智库领域文本相似匹配标注数据集。在数据集上对通过TFIDF-MLM方法进行继续训练后的模型在准确率、召回率和命中率比基准模型分别有10.87%、7.23%和3.85%的提高,采用TTT-BERT结构微调监督训练后的模型在少样本监督训练下提升了0.5%的精确度,验证了方法和模型的有效性。(3)适应大规模矢量数据检索的智库文本系统设计与实现。以智库研究活动主体为使用对象开展智库文本辅助系统需求分析与设计。以近似最邻近搜索(ANNS)为文本相似检索服务的矢量数据检索基础的系统架构,采用类似动态离线评估的思想设计标注数据管理、模型管理服务、文本相似检索服务交互,最后使用的Django Vue等Web开发实现了系统。通过上述三方面工作,系统对智库领域文本特性和知识进行了针对性学习,具有更快速、准确、智能的文本相似匹配查,能成为智库研究中文本分析的有力工具。
基于Flink的专家智库实时推荐系统的设计与实现
这是一篇关于实时推荐,流计算引擎,多路召回,相似度匹配,专家智库的论文, 主要内容为随着科学技术的蓬勃发展,论文和专利等学术成果与日俱增,但同时也带来了信息过载问题。为了缓解这一问题,专家智库平台应运而生,提供了丰富的学术资源和检索功能。然而,现有的专家智库平台普遍存在强检索弱推荐问题,即使有推荐服务,其策略也往往以领域主题推荐等离线推荐为主,忽视了用户的即时兴趣。此外,专家智库平台的海量学术资源也对推荐系统的性能提出了极高要求。因此,为专家智库平台提供高性能的能捕捉即时兴趣的实时推荐服务,具有极高的价值和意义。针对以上问题,本文设计并实现了基于Flink的专家智库实时推荐系统,重点工作包括以下几个方面:(1)设计并实现了三段式的基于Flink的实时流处理推荐架构方案。该架构方案有效融合了 Lambda架构和Kappa架构的优点,并与基于Storm的Lambda架构方案进行对比实验,实验结果验证了本文架构方案在吞吐量和时延上均有较大提升。(2)提出了面向专家智库的多路召回实时推荐策略。该策略将协同过滤推荐、基于内容的推荐等离线推荐策略与基于热度的推荐、实时协同过滤推荐等实时推荐策略进行结合,并针对专家智库平台多场景推荐特色进行定制化融合策略。最终通过使用平台采集的真实用户数据进行消融实验和分支对比实验,实验结果验证了本文策略在命中率、召回率和NDCG指标上均有所提升。(3)搭建了带实时推荐的专家智库平台。该平台系统使用SpringBoot框架进行后端开发,使用Vue.js和Nuxt.js进行了前端开发,使用MySQL作为关系型数据库,搭建于阿里云ECS服务器上。该平台系统实现了首页推荐功能、项目与研讨功能、检索功能、工作台功能和管理员功能等模块,功能完备。并且,该平台系统经过功能测试与性能测试后已经上线运营。
智库文本辅助系统研究与应用
这是一篇关于智库文本,语义相似度计算,预训练语言模型,多路召回,近似最邻近搜索的论文, 主要内容为随着时代的进步和中国的发展,智库在国家治理、科学决策中的地位作用愈发凸显,中国特色新型智库建设成为一项重大而紧迫的任务。智库建设发展走了上快车道,信息技术辅助智库建设发展也被提上了日程。现有系统文本查询算法在语义信息挖掘不足,传统软件架构应对大规模矢量数据的处理能力也不足,制约了已有智库成果的运用。为解决上述问题,本文主要开展了以下工作:(1)智库领域文本语义相似度计算研究。对智库文本相似度计算的需求特点与智库文本特性进行分析,提出基于TF-IDF权重指导预训练模型BERT自监督继续训练的TFIDF-MLM掩码方法,累加和大于阈值的词进行MLM训练,以实现具有针对性的学习领域文本。基于Sentence-BERT孪生结构改进BERT输出表征向量和后端接入结构,提出TTT-BERT结构进行微调监督训练,通过监督训练的方式得到各层Transformer向量组成句文本表示向量权重,以实现对预训练和继续训练中各Transformer学习到不同特征进行充分利用的目的。基于近似最邻近搜索算法(ANNS)设计了文本相似匹配方法,极大减少了文本相似匹配查询时间。(2)构建数据集并进行实验验证改进算法和模型。采用网络爬虫技术,对省级发展研究中心、人民日报、光明日报等智库文章站点采集文章并对其进行数据清洗,采用多路召回策略,用常见相似匹配算法建立相似候选集,再随机选取部分数据进行人工标注,建立智库领域文本相似匹配标注数据集。在数据集上对通过TFIDF-MLM方法进行继续训练后的模型在准确率、召回率和命中率比基准模型分别有10.87%、7.23%和3.85%的提高,采用TTT-BERT结构微调监督训练后的模型在少样本监督训练下提升了0.5%的精确度,验证了方法和模型的有效性。(3)适应大规模矢量数据检索的智库文本系统设计与实现。以智库研究活动主体为使用对象开展智库文本辅助系统需求分析与设计。以近似最邻近搜索(ANNS)为文本相似检索服务的矢量数据检索基础的系统架构,采用类似动态离线评估的思想设计标注数据管理、模型管理服务、文本相似检索服务交互,最后使用的Django Vue等Web开发实现了系统。通过上述三方面工作,系统对智库领域文本特性和知识进行了针对性学习,具有更快速、准确、智能的文本相似匹配查,能成为智库研究中文本分析的有力工具。
基于知识增强的特定领域问句理解研究
这是一篇关于问句理解,知识图谱,问句生成,多路召回,超图的论文, 主要内容为问句理解是智能问答、搜索引擎、对话机器人等应用的关键技术,一直是NLP领域的一个研究热点。当前,面向特定领域的问句理解语义模型主要存在以下问题:(1)缺乏大量的高质量语料。针对语料缺乏及人工标注成本高的问题,业界往往利用有限的领域知识库来自动生成问句,目前基于知识图谱的问句生成模型没有综合考虑文本的相似性、句法与语法的相似性等多维语义,难以生成高质量的问句。(2)当前多路召回融合排序方法难以保证问句理解的高鲁棒性。当前问句理解方法通常基于多路召回再融合排序,由于排序时只考虑问句与单个召回答案之间的成对关系,难以考虑到召回序列的整体排序情况,因而存在理解效果不佳的问题。针对上述问题,本文主要基于知识图谱的问句生成和基于多路召回的问句理解研究开展了如下工作:(1)融合知识图谱和句法分析的复杂问句生成模型研究。针对问题一,提出一种融合知识图谱和句法分析的复杂问句生成模型,该方法通过在文本生成模型中融入知识图谱的结构信息来生成复杂问句,同时引入句法分析来评估生成问句与标准问句之间句法与语法的相似性,并以此设计了基于句法分析的损失函数指导模型训练。实验验证,利用该模型生成的问句更符合自然语言逻辑、更具有扩展性。(2)基于多路召回和超图重排的问句理解研究。针对问题二,提出一种基于多路召回和超图重排的问句理解方法,该方法利用超图上超边可以包含任意多个顶点的特性,将问句理解的排序过程转为基于超图的相似度计算,从而解决了以往方法难以考虑召回序列的整体排序情况的问题。实验验证,该方法能够捕获每个召回序列的内部排序情况,并通过候选集在不同召回序列中的位置来优化重排队列,以有效提高基于多路召回的问句理解方法精度。(3)智能问答原型系统的开发及应用。根据上述研究成果,本文设计并实现了一个面向特定领域的智能问答原型系统。该系统具有知识图谱导入、数据标注、问句生成、智能问答等功能。并基于该原型系统实现了面向学术领域的智能问答系统应用。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计货栈 ,原文地址:https://bishedaima.com/lunwen/46214.html