基于词库匹配方法的电商商品评论的分类及情感分析
这是一篇关于电商商品评论,词库匹配,文本分类,BP神经网络模型,情感分析的论文, 主要内容为21世纪以来,随着互联网的不断发展,网上购物越来越成为人们生活不可缺少的一部分。据艾瑞网最新统计的数据显示,2019年中国电商行业交易规模达31.63万亿元,同比增长16.2%。网上购物的逐渐成熟使得消费者越来越关注购物过程中的服务体验,相对于实体销售而言,网上购物中的买卖双方缺乏面对面获取影响销售的环境,电商评论是一种重要的网络口碑形式,是网上购物为买卖双方增进相互了解的一种互动弥补方式。消费者可通过查阅已有评论来了解产品的好坏。由于买卖双方具有获取信息方面的不对称性,因此为了减少购物的风险,越来越多的消费者在购物之前选择参考已有的电商评论。由于电商发展的日益壮大,电商评论的数量也越来越多,利用单纯的人工操作无法满足商家和消费者对大量评论数据有价值信息获取。因此本文需要对大量的电商评论进行分析和处理,来帮助商家改进电商的服务以及提高消费者的购物体验。主要的研究工作有:(1)对比不同电商平台的性质,选取京东电商平台上的商品评论作为数据爬取的对象。对比不同爬虫工具的优缺点,选择使用Python中的Requests+Beautiful Soup组合爬虫工具进行数据采集。接着对获取的评论数据进行文本的预处理工作,主要包括文中文分词、去停用词等,为后续电商评论数据的分类和情感分析做数据的准备。(2)对比文本分类方法的优缺点选择统计学习法对数据进行分类。选取分类方法之后对比该分类方法所需要用到的模型的优缺点,选择使用BP神经网络模型对评论数据进行分类。词库的建立是评论数据分类过程中非常重要的一环,本文进一步阐述了词库建立的方法和步骤。利用词库可以将评论数据转化为BP神经网络模型的特征输入对模型进行训练。利用训练好的模型实现对相评论数据的分类并对比不同专家的分类结果,对比准确率均为90%以上。(3)对比情感分析方法的优缺点选择基于情感词典的情感分析方法。叙述情感分析的整个流程,将分类好的数据进行情感分析,并对分析结果进行统计。最后将统计结果对比不同专家的统计结果,对比准确率均为90%以上。(4)将评论数据分类和情感分析的方法相结合,并对京东电商平台的宏观时间数据和微观时间数据的物流因素满意度差异进行分析。宏观时间数据对比分析结果中2019年整体物流满意度较2018年上升6.27%,并且各个方面的物流因素满意度均有提高,但是快递员送货态度方面有待改善。另一方面,微观时间数据对比分析结果中特殊时间段的物流因素整体满意度则均有所下降。通过对比不同时期的物流因素满意度差异,给商家提供相应的改善建议,使商家有针对性的改善电商服务,具有一定的理论和实践意义。
基于知识图谱的计算机领域胜任力研究与应用
这是一篇关于知识图谱,实体识别,岗位胜任力,文本分类,语义检索的论文, 主要内容为随着网络与人工智能的迅猛发展,计算机领域进入高速发展时代,企业对计算机领域人才的招聘更加频繁,高校也越发重视计算机领域的人才培养。但在求职过程中,岗位匹配主要以关键词搜索为主,返回的招聘信息较为分散,岗位所需的知识和技能无法被全面展示,这将影响求职者对于岗位的认知甚至职业选择。为有效解决上述问题,学术界和工业界通过定义岗位胜任力模型为招聘与求职提供客观科学依据。本文结合计算机领域的特点开展研究,基于求职网站中的招聘数据构建知识图谱,抽取不同类别岗位所需的知识和技能即岗位胜任力,最后研发应用平台提供基于知识图谱的招聘信息语义检索服务并展示全面的岗位胜任力即岗位所需的知识和技能以及所对应的掌握程度。本文的主要研究和贡献有:1.定义了计算机领域招聘信息的知识图谱数据模式和语义关系,包含不同类别的实体、实体间关系、实体的属性等,并在数据模式中引入知识和技能实体,在知识图谱中融合岗位胜任力元素。2.构建了计算机领域的知识图谱。收集互联网中计算机领域的招聘信息数据并构造领域词典,使用卷积和双向长短期记忆相融合的神经网络算法抽取出知识图谱中的知识,将整合后的知识存储在Neo4j图数据库中。本文的知识抽取方法在实验中具较高的F1值,所构建知识图谱具丰富的实体和语义网络。3.提出了基于知识图谱的岗位胜任力需求模型抽取方法。本文先基于知识图谱完成对招聘需求文本的语义扩展,基于人工标注和预训练模型使用BERT模型将计算机领域招聘信息分为不同类别的岗位。最后使用word2vec完成程度词分类,基于共现矩阵实现计算机领域不同类别岗位所需胜任力的抽取,深度挖掘每类岗位所需的知识和技能及相应的掌握程度。实验表明该方法的实验结果较为符合求职的实际情况,对于求职者全面了解岗位具有较好的借鉴意义。4.搭建了基于知识图谱的计算机领域胜任力管理平台。本文整合Neo4j中知识图谱和岗位胜任力数据,将数据同步至ElasticSearch。借助Elasticsearch的高效优质的全文检索为求职者提供快速丰富的招聘信息语义检索服务,使用Vue.js框架搭建具有图谱可视化效果的职位信息列表和岗位胜任力展示平台。本文所提出知识图谱构建技术和岗位胜任力抽取技术在实验数据中表现良好。基于知识图谱的招聘信息语义检索案例在速度和语义相关度方面具有不错的表现,通过知识图谱可视化展示的岗位胜任力可以较为全面地展示计算机领域不同岗位所需的知识和技能。所搭建的平台可以为求职者提供优质的招聘信息检索和岗位胜任力展示服务。
基于动词特征的文本分类方法研究
这是一篇关于文本分类,动词特征,特征工程,群体智能,迁移学习的论文, 主要内容为随着互联网的快速发展,用户在社交媒体和网络购物平台中产生了大量的数据,文本作为这些数据的重要表现形式,从中提取有效信息与寻找信息热点是现代自然语言处理研究的重要内容。文本分类作为文本信息处理的基础技术之一,一直是信息挖掘等领域的研究热点。在文本分类任务中,文本特征的提取及处理方法直接影响最终分类系统的分类效果。通过使用群体智能、迁移学习等技术可以更好的对文本特征进行识别和提取。本文提出了一种使用扩展后的动词特征进行分类的智能回归分类方法和一种通过迁移学习使用其他领域知识对缺乏标注的文本进行分类的方法,创新点如下:1.在使用文本表达意见、态度时,动词扮演了重要的角色。本文提出了一种通过依存句法分析提取核心动词作为特征并对动词特征进行扩展的方法。为了提高分类器的分类效果,该方法对文本中的动词特征进行了扩展,使用粒子群搜索算法从原始特征空间中寻找有效的特征映射函数,再根据这些函数将原始特征从低维空间映射至易于分类的高维空间,进而构建更合理的特征表达。2.在对动词特征进行扩展后,特征维数较高,本文提出了智能回归方法作为分类方法对扩展后的动词特征进行分类。该方法通过粒子群算法搜寻回归模型的各个参数,选取最优粒子构建分类模型。通过在电商平台评论等语料中的实验,验证了动词特征和该分类方法的有效性,该方法对统计有效用户反馈有重要意义。3.在现实的文本分类任务中,标注缺乏的情况十分常见,本文提出了一种通过其他语言的样本标注进行训练的跨语言文本分类方法。该方法通过枢纽词学习两种语言词汇在同一特征空间中的分布表示,通过编码器将文本特征映射到新的特征空间。在映射过程中,丢弃语言特征,保留语义特征。映射完成后将使用源领域的标签训练的分类器应用于目标领域,即可得到分类结果。此外,针对动词在中短文本中的核心地位和语法特性,使用动词特征对该跨语言文本分类方法做出了改进。改进的内容为使用动词特征作为特征空间的锚点,在编码器的编码过程中参考动词锚点进行编码。实验结果表明,与传统分类方法相比,跨语言文本分类方法的分类效果较好,改进后模型的分类效果得到了进一步的提高。
基于深度学习的企业推荐技术的研究与实现
这是一篇关于推荐系统,分布式爬虫,文本分类,基于内容推荐,深度学习的论文, 主要内容为推荐系统,是一种能够从海量的信息中,依据使用者的历史信息或者使用者的自身特征,向使用者提供符合其自身需求或者使用者所喜欢的信息或者物品。它能够依据使用企业的历史业务记录或者企业自身的特点,从海量的信息中筛选出使用企业可用于业务进行的有用信息,从而节省时间与人力成本,推动传统企业向信息化转型。基于这个切实的需求,本文设计并且实现一个基于深度学习的企业推荐系统,该系统由分布式数据采集系统,基于深度神经网络的企业分类算法与基于内容的企业推荐算法组成。在分布式数据收集方面,本文采用Python下的Scrapy框架,根据Redis内存数据库的特点,采用Mysql数据库作为数据的持久化存储,完成了Scrapy-Redis分布式爬虫系统。针对基于深度学习的企业分类算法,因为从网络中抓取的原始数据不包含企业的类别信息,企业的类别信息这一属性在推荐中至关重要。在这部分本文在有限的数据集下情况下,完成了三种神经网络,前馈神经网络、卷积神经网络以及Ngram神经网络。这三种神经网络在验证集上的准确率分别为86.28%、86.16%和86.16%。在实现企业分类的工作中采用了前馈神经网络。针对基于内容的企业的推荐算法,本文从企业业务实际出发,制定了企业相似度计算方法。分别指定了企业属性的描述方法,定义了三种不同字段的计算方法。即列表类字段、文本类字段以及数字类型字段。对于最重要的文本类字段的计算方法本文实现了LSI模型与Word Embedding方法,并将最后的计算结果与Baidu AI进行对比。其中LSI模型、Word Embedding模型与Baidu AI的两两皮尔森相似度为0.3979、0.1984与0.6451。最后依据企业业务选择LSI模型进行文本类字段分类。在最后在推荐企业结果上,根据最后企业的反馈,根据推荐系统进行业务与不根据进行业务相对比业务成功率提升约7.5%。
实验教学智能管理平台自动评分模块的设计与实现
这是一篇关于自然语言处理,BERT,文本分类,文本相似度,自动评分的论文, 主要内容为随着“人工智能+教育”模式的兴起,利用人工智能的优势来促进教育的改革与创新具有非常广泛的研究前景。其中,在自动评分领域,对主观题的自动评分是当前考试智能批改任务的主要难点,目前的阅卷难度主要体现在对主观题的批改上,其批改完全依赖专业领域的相关人员,利用自然语言处理相关技术进行自动评分,对促进教育的公平性和智能化具有重要意义。本文的主要研究内容如下:1.本文通过词向量的方式分别对使用基于文本分类模型和基于语义相似度模型的自动评分任务进行了实验,此外,在这两种方式的自动评分上分别采用CNN、LSTM、BERT三种不同模型架构来进行实验对比,通过对比实验验证了,BERT这种基于预训练的模型相比于传统的CNN、LSTM模型,在分类任务上准确率可提升4%-7%,在语义相似度任务上的准确率能提升3%左右。2.本文设计了一种用于构造相似文本对和不相似文本对数据集的方法。其中相似文本对通过使用相同分数的答案样本进行组合获得正样本,不相似的文本对可以通过不同题目答案之间的组合来获得负样本。该方法可以有效的对采用基于文本相似度方法来进行自动评分的数据集进行扩充,进而可以有效缓解采用深度学习模型进行自动评分时存在数据样本稀缺的问题。3.在对自动评分的算法进行研究之外,本文还设计了一种采用Spring Boot技术的主观题自动评分系统。该系统可供学生用户和教师用户进行注册和登录,教师用户模块的主要功能是试题管理,通过试题管理模块,教师可以进行出题,设置题目的关键词、标准答案和分数。学生用户通过登录该系统来查看教师发布的试题并进行作答,作答完成之后通过自动评分模块给出分数,进而完成在线答题的自动评分任务。4.在自动评分模块中,本文通过使用基于关键词特征和语义相似度相结合的方法对学生答案和参考答案进行对比评分。通过本文的实验,我们提出的模型对比了基于杰卡德相似度评分算法,在自动评分任务上本文提出的模型在平均绝对误差上更小,进一步验证了本文模型在自动评分上具有一定优势。
古典诗词意境的自动识别
这是一篇关于古典诗词,意境,自然语言处理,文本分类的论文, 主要内容为诗词是我国古典文化皇冠上的明珠,千百年来被无数人传颂和研究。但受限于技术手段的贫乏,对古典诗词的研究一直以来都是靠文人学者们的人力劳作。近年来随着计算机技术的迅猛发展和硬件算力的飞跃式提升,自然语言处理技术在实践运作中取得了令人瞩目的成果。本文将自然语言处理运用于古典诗词的文本分析当中,提出一套自动识别古典诗词当中意境的方法,对批量化研究古典诗词,坚定文化自信,为传承和弘扬中华优秀传统文化贡献微末力量。通过定制撰写爬虫以异步方式定向从互联网收集大量分类标注和未标注的古诗词文本语料,以及大量的非诗词古汉语语料。对语料进行数据清洗,入库。为了尽可能贴近原汁原味的古文,语料的采集和研究过程使用繁体中文作为标准。使用词嵌入进行词向量训练,完成语料的准备工作。研究不同的机器学习算法在文本分类上的应用,将其和不同的文档向量化方法相结合,比较其在诗词主题分类问题上的表现,总结出经典机器学习框架下有较好准确率。比较基于字的向量和基于词的向量的效果,得出基于字构建的古诗词向量具有较高准确率的结论。将深度学习方法进一步引入到研究中,分析各类神经网络的优劣,研究学界在自然语言处理实践中具有较好效果的神经网络架构,如Text CNN和Bi LSTM等,引入成熟的自然语言处理预训练模型如BERT等进行主题分类。构建了基于词向量的情绪字典匹配法进行情感分析。本文研究了古汉语和现代汉语在自然语言处理中的不同表现,分析了古诗词在分词、向量构造中的难点,通过字本位解决分词困难,通过研究从词向量到文档向量的映射直接构造文档向量。将自动识别算法应用于大量的未标注诗词,在得到的数据基础上开发出诗词意境分析与相似诗词推荐系统,用户输入一段诗句后就可以得到诗词意境的推断结果以及与其相似的诗词推荐,也可以通过主题和情感筛选分类查询数据库中的诗词。
基于深度学习的层次多标签文本分类算法研究
这是一篇关于文本分类,层次多标签,深度学习,预训练语言模型,注意力机制的论文, 主要内容为在互联网时代,传统电视新闻媒体开始向融合媒体转型,电视新闻被推送到互联网终端,可以被更多人浏览到。我国的十四五规划也指出,应推进媒体深度融合,做强新型主流媒体,提升公共文化服务水平。在传统新闻媒体向融合媒体转型过程中,新闻的标签技术显得更加重要,因为将电视新闻中的文本进行标签化,不仅可以分析与理解新闻内容,方便整理归类,还能为互联网用户提供更为精准的搜索与推荐服务。因此,将多标签文本分类技术用于新闻数据,为新闻打上层次化的、细粒度的标签,可以节约人力成本,提升新闻的利用价值。多标签分类算法给一个样本分配多个标签,在推荐系统、舆情分析与情感分类等领域应用广泛,在样本的不同标签之间通常具有相关性,如何在建模过程中学习到标签之间的相关性,是一个巨大的挑战。在新闻文本分类中,标签之间的关系是层次化的。同时,各个标签与新闻文本不同部分的相关程度并不相同,标签与文本特征的融合需要针对性地建模。本文针对这两个问题,提出了两种基于深度学习的层次多标签分类算法,主要工作如下:(1)在构建融合媒体内容管理平台项目过程中,获取了大量的来自电视台的新闻稿,其中包含了近年来各类电视新闻的数据。本文基于这些新闻稿构建了一个层次多标签文本分类的数据集。(2)提出了基于双向层次注意力模块的新闻多标签分类模型。现有的多标签算法通常忽略了标签层次结构之间的关联,或者单向地建模标签与标签之间的关系,造成误差传递的现象。本文的模型设计了一个层次注意力模块用于捕捉文本内容与标签嵌入之间的相关性,并在其中双向建模不同层次的标签之间的依赖关系,从而提取到更加精确的特征用于分类。(3)提出了融合图卷积网络的新闻多标签分类模型。该模型用于解决标签与文本之间特征融合不充分的问题。针对标签的树型结构,模型使用图卷积神经网络建模标签之间的依赖,将抽取到的标签特征使用多头注意力机制融入到文本特征中,充分利用文本特征与标签特征之间的相互影响,以提高模型在新闻数据集上的性能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工厂 ,原文地址:https://bishedaima.com/lunwen/45380.html