融入评论文本的图卷积网络茶产品推荐研究
这是一篇关于茶产品,图卷积网络,推荐系统,评论文本,BERT,LightGCN的论文, 主要内容为随着网络购物的兴起,电子商务得以飞速发展,越来越多的农副产品也从线下销售平台走入线上电商销售平台。其中,茶叶作为我国的一种传统饮用品在京东、天猫等电商平台都有销售,然而大量的茶产品信息造成用户意图模糊。推荐系统主要通过挖掘用户偏好,主动向用户推荐其可能感兴趣的信息,使得用户不必在海量信息中自己搜索,是解决信息过载问题的必要工具。推荐系统发展至今,衍生出多种推荐算法,传统的推荐算法主要利用协同过滤等技术,经过复杂的运算找到用户感兴趣的商品或信息,而深度学习的出现,为推荐模型的效果带来了大幅的提升。图卷积网络的出现使得非欧空间的图结构数据得以被更好的利用,实际推荐中的用户物品关系与图结构最为相似,因此利用图卷积网络构建推荐模型成为当今推荐技术发展的新趋势。针对简化的图卷积网络利用信息形式单一的问题,本文提出一种融入评论文本的图卷积网络茶产品推荐模型BERT-LightGCN(BERT-Light Graph Convolution Network)。利用用户对茶产品的评论文本来辅助图卷积网络学习用户和茶产品的特征,进而分析用户偏好,以提升茶产品推荐模型的推荐效果。本文的具体工作如下:(1)针对传统推荐模型面临的数据稀疏和遗失结构信息等问题,利用一种基于深度学习的图卷积网络处理用户—茶产品交互图中的交互信息。通过使用LightGCN中提出的一种简化的图卷积方式,在交互图上传播用户及茶产品节点的特征信息,对用户和茶产品的特征进行更加细致全面的刻画,从而提升推荐效果。(2)针对多数推荐模型只注重用户—物品的交互信息,而忽略其它有效可用信息的问题。通过使用BERT模型来处理用户关于茶产品的评论文本,从中提取目标茶产品和目标用户的语义特征,用于辅助图神经网络学习节点特征,以提升模型的鲁棒性。(3)在京东真实数据集上进行了相关实验,验证了BERT-LightGCN模型的有效性,并通过大量实验探究了不同超参数对模型的最终影响效果。最后,对比了传统的推荐方法、基于深度学习的推荐方法和BERT-LightGCN的优劣性,实验结果表明,本文提出的模型在茶产品的推荐效果上有显著的优势。
基于深度学习的在线医疗社区知识图谱构建研究
这是一篇关于实体识别,关系抽取,知识图谱,卷积神经网络,双向长短记忆神经网络,BERT的论文, 主要内容为自2012年谷歌提出了知识图谱的概念至今,知识图谱这一领域一直是科学研究和科技应用的前沿热点,其应用也涉及了从搜索到推荐等众多领域。目前,医学是知识图谱应用最广的垂直领域之一,也是目前国内外人工智能领域研究的热点。其中,在线医疗社区逐渐被大众熟知和使用,其中的医患问答文本具有很高的研究价值。因为医疗行业知识中专业用词多且在线医疗社区医患问答文本非结构化程度高、语言表述差异化大,这些问题导致了对齐进行医疗实体识别和关系抽取都是较为困难的,从而导致了医疗知识图谱构建困难重重。针对在线医疗社区中文本非结构化程度高的问题,提出基于CNN-Bi LSTM-CRF的实体识别模型,利用python语言在pytorch深度学习框架下分别使用卷积神经网络CNN(Convolutional Neural Networks)和双向长短记忆神经网络Bi LSTM(Bi-directional Long Short-Term Memory)两种深度学习对文本的不同特征进行抽取,在CNN识别出中文单个字的汉字级特征,在Bi LSTM中识别出结合上下文信息的特征,将识别出的特征进行融合放入条件随机场CRF(Conditional Random Fields)中完成对实体的识别。利用寻医问药网中关于乳腺癌疾病的问答文本的实验,整体的识别准确率高达92.32%。并分别与Bi LSTM-CRF和CNN-CRF模型在同一数据集上进行了对比验证,证明了所采用方法的有效性。针对由于地域差异以及个人语言表述习惯等原因导致医患问答文本存在着语序上的差异化表达的问题,采用BERT-Attention,充分利用左右两侧的双向的上下文信息来进行医疗实体间的关系抽取。利用python语言在pytorch深度学习框架下,采用寻医问药网中关于乳腺癌疾病的问答文本进行方法验证,模型的准确率达到了89.8%。并且通过与Glove-Attention和Bi GRU-Attention模型进行对比,表明BERT-Attention的方法明显优于其他模型,从而验证了方法的有效性。最后,基于已经识别出的实体和关系,本研究还利用可视化工具Echarts实现了对知识图谱的可视化,并进行了简单的分析。通过构建在线医疗社区医患问答文本的知识图谱,不仅为复杂文本实体识别及关系抽取工作提出新的解决思路,丰富了知识图谱技术在医学领域的研究方向,还提出了一种基于知识图谱智能问诊的实现,这种问诊方式更加直观生动而且可以缓解医生压力、提升回复效率同时推动个性化医疗行业的发展。
基于BERT模型的中老年个性化新闻推荐系统
这是一篇关于新闻推荐,特征选择,xDeepFM,预训练模型,BERT的论文, 主要内容为近年来,互联网的迅猛发展带来了海量的新闻资讯信息,同时随着我国老年化程度逐渐加剧,使得中老年群体在面对海量的新闻资讯信息时无法快速有效地获取自己感兴趣的内容。此外,很多的新闻资讯平台拥有大量的骚扰广告、低质量的新闻和诱导性内容,这对于中老年群体来说,不仅影响他们的阅读体验,还容易增加他们受骗的几率。为解决上述问题,本文研究了一种中老年个性化新闻推荐系统。该系统包含四个模块,新闻内容过滤模块利用一种从Transformers模型得来的双向编码表征预训练模型(Bidirectional Encoder Representations from Transformers,BERT)来筛选用于推荐的候选新闻,新闻主题分类模块对新闻进行分类来获取新闻类别,新闻推荐模块应用推荐技术向用户进行个性化新闻推荐,新闻关键词提取模块用于获取用户历史浏览过的新闻关键词。本文的研究内容如下:1.进行新闻内容过滤,筛选出推荐给中老年群体的候选新闻。首先对新闻数据进行文本去重,然后过滤敏感词,最后使用本文提出的结合多层感知机(Multi-layer Perceptron,MLP)和Bi GRU的BERT分类模型对垃圾新闻进行过滤,并通过实验验证了算法的有效性,有效地提升了垃圾新闻分类的效果。2.构建新闻主题分类模型,确定新闻的类别。本文通过数据处理、使用结合MLP和Bi GRU的BERT分类算法构建多标签分类模型、预测新闻类别等步骤对新闻进行分类。通过实验分析,本文验证了算法在新闻分类中的有效性,有效提升了新闻主题分类的效果。3.实现新闻推荐模型,并向用户进行个性化新闻推送。本文对数据进行数据预处理、特征工程、特征选择、建立x Deep FM模型等一系列操作来构建个性化推荐模型。同时本文提出了一种将深度学习和机器学习结合的特征选择方法,通过对比实验证明了其在特征选择上的有效性。最后在模型构建部分,对比了不同的推荐模型,验证了x Deep FM模型在个性化推荐中效果更好。4.对用户历史浏览过的新闻内容进行关键词提取,掌握用户的实时偏好。
基于BERT预训练模型的动物科学领域命名实体识别研究
这是一篇关于命名实体识别,动物科学领域,双向LSTM,BERT,条件随机场的论文, 主要内容为随着“新农科”建设的推进和农业信息化技术的发展,动物科学专业得到快速发展,很多动物科学领域工作者通过互联网提出问题、获取知识。命名实体识别是自然语言处理领域中的一项核心基础技术,可以从各类非结构化问答数据中识别实体、获取有用信息,进而构建问答系统、知识图谱等应用,为动物科学领域工作者所使用。命名实体识别虽然在中文的多个领域得到应用,但是很多汉字存在一词多义的特点,而传统词嵌入技术获取的词向量无法表现出这种一词多义的特征,除此之外,动物科学领域专业性强且目前该领域缺乏用于实体识别所需要的标注数据等原因,导致动物科学领域命名实体识别发展缓慢。本文创建动物科学领域语料库,并构建新的实体识别模型应用于该语料库,主要研究内容如下:(1)从知网中获取动物科学领域相关的中文文献,作为语料库基础文本,对基础文本进行预处理清洗后,使用语料标注工具,采用“BIO”(B-begin,I-inside,O-outside)标注模式,对文本语料进行标注,创建动物科学领域语料库。(2)基于BERT预训练模型,对常用的LSTM-CRF命名实体识别模型进行改进,引入双向长短期记忆网络,构建一种基于BERT预训练模型的BERT-Bi LSTM-CRF模型,该模型首先利用BERT预训练模型得到有上下文语义信息的词向量表示,有效解决一词多义问题,再将词向量表示输入到双向长短期记忆网络层进行上下文编码,提高识别准确性,最后通过条件随机场获得最优识别效果。(3)将模型在创建的动物科学领域语料库上进行实验,并与RNN-CRF、LSTM-CRF、Bi LSTM-CRF以及BERT-CRF模型进行对比。结果表明,该模型实体识别的精确率、召回率与F1值均优于其他模型,证明了该模型的有效性。
知识增强预训练模型的方面级情感分析关键技术研究
这是一篇关于方面级情感分析,数据增强,预训练模型,情感分析系统,BERT的论文, 主要内容为自然语言处理技术的发展,无论是学术界还是工业界都非常重视,情感分析是其重要的研究方向。近年来,如博客、论坛、微博、电商网站等平台都提供了用户发表观点和评论的渠道,由于信息过载,人们越来越倾向于参考别人的评价信息选择消费。有效地分析这些观点信息,有利于用户熟悉产品信息、调整经营策略、监控舆情动态等。传统的情感分析大多基于整个句子进行情感预测,然而,生活中人们往往更加关注指定方面的情感评价。因此,方面级情感分析任务应运而生。目前情感分析系统主要依靠大量数据进行驱动,一些研究者不断尝试通过一系列数据增强、数据迁移等方式增加辅助信息,通过实验表明这种方式对模型性能提升有限,并且需要大量数据进行迁移学习。利用其它领域的样本进行迁移学习,很难避免领域间不同语境带来的语义差异。因此,方面级情感分析任务是一个非常重要且非常复杂的问题,需求与发展永无止境,目前仍存在很多亟待解决的问题:第一,方面级情感分析任务的标注数据匮乏,且人工标注成本巨大,训练样本不足会极大地限制模型性能;第二,句子中不同方面的情感倾向不尽相同,如何更好地关注方面词相关的上下文情感信息是研究该任务的重难点之一;第三,目前情感分析平台大多开放的是基于整个句子进行情感预测,缺少具体方面的情感分析,设计并实现一个方面级情感分析系统是非常具有研究价值的。针对以上方面级情感分析任务中存在的不足,本文从数据增强、同义词替换、预训练等角度深入研究,提出两个算法模型并实现一个方面级情感分析系统。主要包括以下几点贡献:(1)提出一种基于预训练和同义词替换的数据增强算法。为了解决方面级情感分析任务的标注数据匮乏问题,本文对数据增强算法进行了深入研究,对比分析了基于预训练模型生成语义信息的有效性,提出一种基于预训练和同义词替换的联合训练模型。通过预训练模型生成同义句,保证语义信息的一致性,再联合同义词替换算法进一步丰富样本数据,保证生成句子的唯一性。最后在Sem Eval 2014数据集上进行模型评估,利用方面级情感分析任务的经典基线模型进行对比实验,验证了本文所提数据增强算法的有效性。(2)提出一种知识增强的预训练模型。为了解决方面对应的特征提取不充分问题,本文前人成果进行深入研究,分析实验角度,发现研究者更多的是关注句子的全局上下文信息,利用领域内或领域外的情感信息增加辅助情感知识,从而忽略了方面词附近的情感信息对指定方面情感表达具有更大积极作用的特征。本文提出一种基于全局文本信息和方面词局部情感信息进行联合知识增强的预训练模型,全面考虑了方面词的语义信息。在Sem Eval 2014和Twitter数据集上对比实验,从多个角度进行分析,验证了模型的有效性。最后还与主流的迁移学习进行对比分析,更进一步说明了模型在数据集较少的领域内效果表现更佳。(3)设计并实现一个方面级情感分析系统。本文设计并实现一个方面级情感分析系统,将本文所提两个算法模型应用于该系统中。用户可以根据需要自训练一个领域内的方面级情感分析模型,快速进行方面级情感倾向预测和数据统计分析。
面向盗窃案件的智能问答方法研究及其应用
这是一篇关于智能问答,FAQ问答,知识图谱问答,机器阅读理解,BERT的论文, 主要内容为随着大数据、人工智能技术的快速发展,国家全面推进以知识为中心的司法信息化建设,确保面向司法人员、社会公众提供全新的智能化、自主化智慧法院服务。在现有的智能化服务中,法律智能问答涵盖了法律咨询、知识图谱问答、机器阅读理解问答等功能,服务对象涉及广大基层群众和司法人员,具有普适意义。但由于法律智能问答技术研究成本大、专业性较强,现有的智能问答系统往往只具有单一的问答功能,难以提供全面、高质量的问答服务。因此,研发一个完备的法律智能问答系统具有重要的研究与应用价值。法律智能问答存在专业性强和相关研究不足的问题。法院现有咨询渠道人力不足,难以应对大量简单重复咨询任务。如果利用互联网进行法律咨询,普通群众通常得不到专业性的回复。引入法律专业知识进行问答库构建,能够进一步增强法律咨询回复的专业性。同时,法院现有检索系统多采用关键词模型,无法对用户查询进行语义解析,难以返回精准的细粒度答案,不利于同案同判,降低审判效率。知识图谱问答和机器阅读理解问答利用深度学习技术,实现了问句语义理解,可针对结构化和非结构数据进行相应问答,从而服务于司法实践。但在司法领域,智能问答相关研究甚少。因此,本文结合深度学习方法,面向刑事案件中高发类的盗窃案件,开展FAQ问答、知识图谱问答、机器阅读理解三种智能问答技术的研究与应用。论文主要工作如下:(1)实现面向盗窃案件的FAQ问答模型:根据盗窃案件涉及专业知识,构建了盗窃案件常见问题问答库,并使用BM25算法和BERT-whitening模型实现问句检索。为了进一步提升匹配精度,提出了基于BERT-FT的问句交互匹配模型。(2)实现面向盗窃案件的知识图谱问答:根据盗窃案件相关法条、司法要素等结构化信息,搭建了基于Neo4j的案件知识图谱。构建了基于BERT-CRF的实体识别模型,通过领域词典将识别实体链接到知识图谱中。使用基于BERT的答案路径特征匹配模型对候选子图进行排序筛选。(3)实现面向盗窃案件的机器阅读理解问答:结合盗窃案件裁判文书特点,搭建了基于Elastic Search的裁判文书搜索引擎,并设计了基于Ro BERTa-WWM的机器阅读理解模型。为了进一步提升模型性能和应用效果,提出了基于Uni LM的不可回答问题数据增广方法、基于迁移学习的机器阅读理解模型优化方法以及基于对抗训练的模型鲁棒性优化方法。(4)设计并实现面向盗窃案件的智能问答系统:基于法院对智能问答系统的应用需求,将上述三种智能问答模型进行集成,并实现智能问答系统。系统包括盗窃案件法律咨询、知识图谱问答、机器阅读理解问答以及自动问答机器人等功能模块。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码向导 ,原文地址:https://bishedaima.com/lunwen/45931.html