基于文本挖掘的电商用户评论情感分析——以电热水器为例
这是一篇关于电商用户评论,Word2Vec,支持向量机,LSTM,LDA的论文, 主要内容为由于现代信息技术的蓬勃发展,产生出了十分具有潜力的电商产业,以其低成本、快收益的性质使得越来越多的人从事其中,竞争压力也日益增大,商家要想从中脱颖而出,只有准确把握消费者的需求才是出路。现今,越来越多的消费用户在电商平台上进行网络购物,他们在平台上留下了大量蕴含着丰富实用价值的用户评论信息,如若能对其进行准确挖掘,商家便能快速了解用户心声,把握用户对本产品的关注点和需求点,从而提升自身的竞争力。因此,本文以京东商城的电热水器行业为例,通过数据爬取、数据预处理、用户评论情感分析以及主题分析几个部分来研究分析用户评论对品牌商家的应用价值。本文首先借助python网络爬虫技术在京东商城上爬取了多家电热水器商家的用户评论数据。其次,本文构建了多个情感分类模型。针对爬取到的用户评论数据,进行了数据去重、去噪等多项处理,同时借助结巴库对预处理后的评论文本进行中文分词,并利用gensim库中的Word2Vec模型进行中文词语向量化,以作模型输入;然后,从传统机器学习和深度学习两个方面分别构建多个情感分类模型,前者包括朴素贝叶斯、随机森林、支持向量机模型,后者包括长短时记忆神经网络(LSTM)、门限循环单元网络(GRU)以及变体模型Bi-LSTM、Bi-GRU,根据在相同数据集集上的拟合,训练出各自参数最优的模型,并借助多个分类评估指标进行模型分类效果对比,以最高准确率AUC选出了最佳的LSTM模型并利用最佳模型对新的评论数据进行了外推预测。紧接着,进行了LDA主题分析,分别对美的、海尔两大品牌用户好评和差评数据进行了高频关键词词频统计,并借助词云图直观的展示出重点关键词,然后构建LDA模型,挖掘出好差评中的潜在主题,并对潜在主题进行归纳概括,分析出各品牌的营销重点,并在此基础上给出了一些可行性建议。最后通过对全文工作结果进行总结,得出以下研究结论:(1)在电热水器用户评论情感分类方面,相比于传统机器学习算法模型,现代深度学习模型在情感分类上的效果更好,准确率最高达到0.95;(2)本文所构建的情感分类模型在外推预测上的效果也不错,可以帮助商家快速把握用户对产品的情感倾向;(3)对电热水器用户评论进行主题分析发现,两大品牌评论中出现较多的主题体现在产品的质量、包装、价格、售后以及物流等方面,占据较高的权重,体现出了用户对电热水器产品的关注点和需求点,商家需要重点提升产品质量,合理定价,严格安装师傅及客服的专业水平考核。
面向移动电商平台在线评论的特征-情感标签抽取及服务优化研究
这是一篇关于移动电商平台,标签抽取,条件随机场,Word2Vec,BIRCH聚类,服务策略的论文, 主要内容为随着互联网技术的不断发展和各种移动电商平台的兴起,网络购物已经成为大众主要的购物方式。许多用户在购买产品或使用产品之后,会在相应的移动电商平台上发表相关评论。移动电商平台也会根据用户的评论内容进行产品标签的抽取并将这些标签呈现给用户,以便直接影响用户对产品的第一印象和购买决策。目前,国内一些具有代表性的移动电商平台(比如京东、淘宝)已经存在相应的产品评论标签,但这些产品评论标签都是四字标签,语义的丰富程度有限,并且存在指代对象不明确、语义含义难以理解等问题,从而影响了用户购物体验。对于移动电商平台而言,也没有很好地达到帮助用户快速了解产品信息和做出购物决策的预期目的。基于此,本文面向移动电商平台中的用户在线评论,提出了融合Word2Vec和BIRCH算法的产品特征-情感标签抽取方法,并对此方法进行了应用研究。同时,基于研究结论与发现为移动电商平台提供了服务优化策略。主要研究内容如下:首先,分析了当前移动电商平台评论标签的现状和存在问题,针对当前现有移动电商平台中的产品标签语义丰富程度有限的问题,提出了融合Word2Vec和BIRCH算法的特征-情感标签抽取方法。其次,根据提出的特征-情感标签抽取方法,抓取京东电商平台上五种不同类型产品的用户在线评论,并对这些用户在线评论数据进行实例应用研究。通过对用户在线评论数据进行标注、分词、去停用词、抽取情感特征词等预处理,运用BIRCH算法对预处理结果进行聚类分析,从而完成对产品特征-情感标签的抽取,运用准确率、召回率、F值三个评价指标对实验结果进行评价。经过对比实验发现,本研究所提出的方法在评论标签的抽取上具有更好的效果。最后,在提出的特征-情感标签抽取方法和相关研究发现的基础上,从推荐服务、导航服务、营销策略、管理方法四个方面进行了移动电商平台服务优化策略研究。本研究提出了一种面向移动电商平台用户在线评论的特征-情感标签抽取方法,实验应用研究表明使用该方法抽取出的特征-情感标签具有更加丰富的语义,说明了该方法具有一定的可行性与适用性。研究结论在一定程度上丰富了评论标签抽取的方法体系,拓展了移动电商平台评论研究领域的思路,能够为移动电商平台的评论抽取提供理论基础和实践参考,具有重要的理论和实践意义。
风险预控视角下煤矿建筑设计合规性审查系统构建研究
这是一篇关于煤矿建筑,BIM,风险预控,Word2Vec的论文, 主要内容为我国煤矿资源丰富,开采历史悠久,作为传统的高劳动密集型行业,煤矿安全问题历来受各方关注。近年来随着安全科学技术发展和安全管理理论完善,煤矿事故发生数量整体上有所下降,安全态势逐渐向好。但煤矿安全事故还是时有发生,且近年来由于煤矿建筑建设项目自身设计缺陷所导致的煤矿安全事故数量反而呈现上升趋势,设计阶段产生的不合规设计将会对后续的施工、生产阶段产生不利影响。因此,对煤矿建筑设计模型进行有效的合规性审查,对于减少不合规设计缺陷,提高煤矿建筑建设项目安全性具有重要意义。首先,本文立足于现今煤矿事故时有发生、危害巨大,煤矿智慧化发展成为大势所趋的现实背景,以事故致因理论、风险管理理论和本质安全管理理论为研究的理论基础,运用文献分析法、调查分析法和理论实际结合法等相关方法,对现今的模型审查问题进行了分析,得出目前BIM在安全管理领域表现出相当优势,但在煤矿安全管理领域运用较少,且以往对于煤矿建筑设计模型合规性审查的研究较少,煤矿建筑设计模型审查效率低下、审查效果差的结论。其次,为使得煤矿建筑设计模型的合规性审查更为迅速和有效,减少设计阶段产生的风险,本研究从煤矿风险预控视角出发,利用词相似度计算模型Word2Vec对2009-2021年225起由煤矿建筑设计不合规缺陷引起的安全事故分析报告进行词向量训练,将与各类事故发生最为相关的煤矿建筑设计风险因素挖掘出来。进而从已获取的煤矿建筑设计风险因素出发,通过建立标准化的规范表达框架,对现行煤矿建筑建设相关规范进行整理,建立了标准化规范数据库。最后,通过BIM平台提供的二次开发接口对上述标准化规范数据库进行访问。经过编写模型数据与规范数据检索和匹配的代码,构建了煤矿建筑设计合规性审查系统,实现了对煤矿建筑设计模型的合规性审查。对合规性审查系统进行测试,发现该系统的精确度和召回率分别为89.60%和96.84%,单个构件的审查时间仅为0.23秒,系统在保证了煤矿建筑设计模型审查质量的基础上大大提高了审查的效率。基于风险预控和BIM的煤矿建筑设计模型合规性审查系统的构建改变了传统人工模型审查过程中普遍审查的审查方式,审查侧重于风险较大的煤矿建筑设计因素,提高了煤矿建筑设计模型审查的效率与质量。通过对不合规的煤矿建筑设计进行修改与控制,从而达到从设计阶段对煤矿安全风险进行预先控制的目的,使得煤矿企业安全管理关口前移,加强了源头治理、前端处理。本研究共有图27幅,表格12个,参考文献120篇。
基于微服务架构的可定制SaaS平台的研究与实现
这是一篇关于SaaS,软件定制,微服务架构,软件推荐,Word2Vec的论文, 主要内容为近年来,随着云计算技术的蓬勃发展和服务导向思想的快速扩散,基于SaaS(Software as a Service)的IT服务受到越来越多处于信息化转型中的企业青睐。旺盛的市场需求使得SaaS服务市场规模急速扩大,SaaS厂商之间竞争激烈。此时,技术实力强的SaaS厂商开始着力构建提供多样化SaaS软件和统一访问入口的SaaS平台,提升产品竞争力。SaaS平台作为运营SaaS软件的平台,涵盖了SaaS软件的运维、管理和销售等功能,能够帮助企业一站式解决信息化建设的问题。然而,当前SaaS平台的建设仍存在诸多问题。首先,传统SaaS平台多采用单体架构。随着业务扩张,用户群体扩大,应用体量也快速增加,单体架构应用存在的耦合度高、扩展能力受限、后期运维复杂等问题开始集中显现,大幅增加了平台的运维成本;其次,由于企业的性质、规模、所属行业等不同,往往对SaaS软件的功能提出定制化需求。传统SaaS平台无法解决SaaS软件标准化与客户需求定制化之间的矛盾;最后,随着SaaS平台中各类SaaS软件的日益丰富,会出现“信息过载”问题,用户无法快速找到满足自己需要的SaaS软件。针对上述问题,本文研究基于微服务架构的可定制SaaS平台的设计与实现。该平台采用具有去中心化、服务解耦、高度自治的微服务架构实现,提供按需组装定制租用和直接租用两种租用方式,并构建个性化推荐系统,为用户提供有针对性的个性化SaaS软件推荐服务。首先,本文从功能和非功能两个方面详细分析了SaaS平台的需求,明确SaaS平台应提供的功能;其次,对SaaS平台实现过程中的关键问题进行分析,提出相应的解决方案。针对SaaS软件按需组装定制问题,提出基于功能模块依赖的按需组装方法。针对SaaS软件个性化推荐问题,采用基于Word2Vec和TFIDF的软件推荐算法,着重介绍了SaaS软件属性特征表示和用户兴趣特征表示;接着,从架构、数据库、功能模块三个方面完成了SaaS平台的设计。架构设计包含逻辑架构和技术架构等整体架构设计。数据库设计包括E-R图设计和数据库表结构设计。功能模块设计从功能需求出发,将SaaS平台划分为统一认证中心、消息服务、账户管理、产品管理、租户管理、订单管理、软件推荐七个微服务模块,给出了每个微服务模块的API接口和类图设计方案。最后,基于设计方案完成了对SaaS平台门户网站和平台助手网站的编码实现,并对功能指标和非功能指标进行了测试。测试结果表明,本文研究的基于微服务架构的可定制SaaS平台具有扩展性好、可靠性高的特点,提供的按需组装租用和SaaS软件个性化推荐功能提升了用户体验。
基于时间加权的混合推荐算法
这是一篇关于混合推荐,主题模型,LDA,二分类,Word2Vec的论文, 主要内容为互联网信息技术的高速发展,随之而来的是数据的爆炸性增长。在信息过载的情况下找到用户真正想要的东西具有重要意义。在这种情况下,推荐系统因需求也开始诞生,它一开始是根据用户的行为数据获取相似用户,相似用户具有相同的喜好,进而为用户推荐喜爱的物品,提高信息利用率。传统的协同过滤并没有考虑时间因素对推荐结果的影响,此外,单一的推荐算法存在各自的不足,如协同过滤算法存在着冷启动问题,基于内容的推荐又存在着推荐质量不佳和内容单一的情况。为此我们提出了两种基于时间加权的推荐算法,分别为基于时间权重和项目类型的推荐算法、基于时间权重和项目主题缺失的推荐算法。具体研究内容如下:(1)基于时间权重和项目类型的推荐算法。首先从基于时间权重的用户历史行为数据中计算物品之间的相似度,接着使用LDA(Latent Dirichlet Allocation)模型从物品类型中提取选择出来类型向量得到物品之间的相似度,最后加权算出的两个相似度。基于时间权重的用户行为数据以融合后的相似度预测用户评分,进而为用户推荐喜欢的物品。由验证结果可以发现:算法不仅不存在冷启动的缺陷,而且和传统的协同过滤算法相比之后,在准确率,F1值和多样性方面有了一定的提升。(2)基于时间权重和项目类型缺失的推荐算法。也就是基于时间权重的用户历史行为信息和利用项目简介来补充项目类型的推荐算法。这种算法计算项目间的相似度,首先是对简介做分词处理,项目的特征属性由几个重要的关键词决定,同时统计关键词的字数得到各个值的大小获得特征向量。在计算特征向量的过程中使用Word2Vec计算词语和词语之间的相关性,同时将词语相关性比较高的词归为同个特征属性,这种方法相当于聚合类似项目特征属性的特征值,通过这样处理之后可以有效处理数据稀疏的问题。以项目类型作为最终结果进行模型训练,训练完模型后就可以根据简介的信息预测项目的类型。接着,从所有的项目类型分类器预测的结果中选出最有代表性的类型,同时与原来的类型进行合并。使用基于时间权重和项目类型的混合推荐算法处理得到两种项目之间的相似度进行融合,最后根据基于时间权重的用户历史行为信息和融合后项目的相似度推荐项目给用户。通过实验证明:通过补充项目类型的方法能弥补项目类型缺失的缺点,算法在准确度,F1值,多样性方面都有了提升。
基于用户评论分析和评分的推荐系统研究
这是一篇关于推荐系统,Word2Vec,用户评论和评分,K-means,信息过载的论文, 主要内容为随着移动互联网技术和大数据技术的快速发展,网络信息数据量随之快速爆发式增长。现在的互联网已经成为大多数人获取信息的首选方式。但是,由于现在互联网中的信息量已经发展的过于庞大,网络信息管理无法做到绝对的规范化,因此,对于很多依赖网络信息技术的用户,很可能无法准确快速的查询到自己想要结果,从而增加了用户信息检索的时间成本,甚至严重影响用户体验。帮助用户在海量数据中获取到用户所需要的有用的信息成为急需要解决的问题。推荐系统作为帮助用户信息过滤的重要手段,正是解决这一问题的重要途径。传统推荐算法主要有基于内容的推荐算法、协同过滤算法和混合推荐算法,但是这些算法都有各自的缺点,比如基于内容的推荐算法在系统前期缺少用户数据的情况下,由于不知道用户前期浏览信息的爱好,从而不知道应该向用户推送什么用户可能会喜欢的信息。为了解决现存的信息过载的问题,可以根据每个特定用户的个性化需求设计实现个性化推荐系统。基于协同过滤的推荐系统就是解决信息过载的重要方式,可以分析系统中所有用户的大量历史行为数据,从中挖掘出与用户偏好相似的信息进行精确推荐,极大提升用户体验,吸引更多用户,为企业创造更多的价值。在实际获取到的用户数据中,存在数据缺失、失实等实际问题,导致传统的基于协同过滤算法存在数据稀疏性和冷启动问题,引起推荐算法实际推荐效果低于预期效果。本文提出利用已有用户对物品评分和评论文本进行分析,实现基于用户评论分析和评分的推荐算法。本文的主要工作如下:(1)提出利用Word2Vec模型计算用户和物品特征向量。首先,需要对用户评论文本进行预处理,根据选取的英文停用词集合去除停用词,然后,利用Word2Vec模型处理预处理后的文本,计算每个用户和物品的特征向量。(2)提出本文的基于用户评论分析和评分的推荐算法。计算用户和物品特征向量后,利用K-means聚类算法,将用户和物品数据集作为输入,聚类完成后再进行距离计算,实现最近距离TOP-N和满足物品推荐权重的推荐。(3)实验对比。
基于Word2Vec的主题爬虫研究与实现
这是一篇关于主题爬虫,Word2Vec,主题表示,相关度比较,爬行策略的论文, 主要内容为近年来,互联网发展迅猛,Web页面呈现出爆炸式的增长趋势,海量页面的存在导致了信息过载现象。分类目录网站和通用搜索引擎能够帮助人们从众多网页中查找所需信息,在一定程度上满足人们宽泛的检索需求,但其存在检索质量不高,检索代价过大等问题。为此有研究者提出主题爬虫的概念,利用算法指导爬虫的爬行过程,避免下载无关网页,让信息的获取更加高效精准。本文首先阐述了主题爬虫的研究意义和相关背景,介绍了主题爬虫的研究现状,并举例说明了通用爬虫和主题爬虫的体系结构及爬行策略,分析并指出主题爬虫的瓶颈主要在于主题表示、相关度比较及爬行策略三方面。接下来本文介绍了包括本体表示法和关键词表示法等常见主题表示方法及其不足之处,提出了利用Word2Vec扩展关键词的方法,让用户可以更加迅速精准地描述主题。随后本文详细介绍了一些关键词提取方法和相关度比较方法,在相关度比较方面,针对向量空间模型使用关键词简单匹配方法可能导致部分主题相关页面被判别为主题无关的问题,本文提出了一种基于Word2Vec的文本相关度比较模型(TRCW),并在NBA、军事、娱乐、科技、财经五个主题下做了大量的对比实验,效果良好。接下来本文详细分析了Shark-Search算法,指出Shark-Search算法中锚文本上下文的边界很难确定,处在版块边缘的锚文本容易受到其它版块链接锚文本的负面影响。针对这一问题,本文提出应当充分分析和利用网页的半结构化特点,将成组出现的链接锚文本互相设置为上下文。此外,针对主题爬虫领域的隧道穿越问题,本文指出出于网站的结构设计等因素,隧道中的网页往往为目录型网页,本文根据这一特点对Shark-Search算法进行了改进,且在娱乐主题和科技主题下进行了对比实验,实验表明本文的改进方法相比于Shark-Search方法大大提高了准确率。结合前几章的理论基础,本文利用Python和PHP等技术构建了一个B/S架构的主题爬虫系统,并在论文的最后对本文在主题爬虫领域所做的工作进行了总结和展望。实验结果表明本文提出的理论方法是有效的,对主题爬虫领域的研究有一定帮助,为该领域未来的研究提供了新思路和实践经验。
基于深度学习的情感分析研究——以天猫国货彩妆评论为例
这是一篇关于情感分析,深度学习,CNN,BiLSTM,Word2Vec的论文, 主要内容为电商平台作为数字化消费的重要载体,在支持和推广本土化妆品的过程中,为一些有特色、有故事、有消费者认知的品牌开辟了新的销售渠道。相伴而生的以评价为主要参考的消费模式正在逐渐扩大,在购物时,消费者往往会根据与产品有关的评价来决定是否购买;商品评价还能帮助商家更好地理解消费者的情绪,帮助企业进行产品优化、用户画像和市场决策,从而增加企业的经济效益。面对快速增长的数据,如果开发出能够自动分析商品评论情感倾向的工具,从大量的评论中快速高效地发掘出有价值的物品属性和情感态度,可以帮助顾客更好的选择目标商品,同时也能帮助品牌更好地理解顾客的看法。本文以天猫商城国内彩妆产品为研究对象,获取具有代表性的彩妆品牌评论文本数据来进行情感分析。然而只进行简单的情感倾向分类不足以充分挖掘评论数据背后的价值,对于商品评论文本的情感分析研究还需要更加深入。因此,文章从粗粒度和细粒度两个方面进行探讨:(1)粗粒度主要是判断评论的整体情感倾向偏向积极还是消极。先采用基于Word2Vec的CNN和双向LSTM深度学习算法模型,对已标注情感态度的商品评价语料包进行训练,并与其他分类模型进行对比分析,以得出最优的分类算法,然后将国货彩妆产品的评论文本数据放入训练好的分类器中,判断出评论的整体情感倾向。(2)细粒度指的是从商品各方面属性的角度,挖掘出用户的评价特征。细粒度的情感分析从两个角度进行研究:所有品牌产品评论的情感分析研究和不同品牌商品的各属性好评率横向对比研究。其中,在第一部分研究中分别采用词云图和LDA主题模型进行可视化和主题分析,将产品评论情感以可视化的形式展现出来,达到对所有产品情感倾向进行对比分析的目的;第二部分研究中结合了品牌营销策略的角度,将不同品牌的产品从各属性进行横向对比分析,以探究各品牌在各个方面存在的优势和不足。实验结果表明:(1)原有的CNN模型、Bi LSTM模型和FCNN模型的准确率较低,而经过改进的基于Word2Vec的CNN模型和Bi LSTM模型的准确率有显著提升,证明了加入Word2Vec的有效性,并且加入Word2Vec后的CNN模型表现要优于Bi LSTM模型。(2)对于所有产品,可直观看到所有商品的被关注程度和消费者的情感程度;对于不同品牌的产品,可明确各个品牌的优劣势,帮助消费者综合性地了解产品,同时企业也能对自身产品进行优化,从而获得更大的收益。
基于Web文本挖掘的命名实体关系抽取研究
这是一篇关于命名实体关系抽取,Web文本挖掘,命名实体语料库,Word2Vec,信息抽取的论文, 主要内容为命名实体关系抽取是信息抽取领域的重要研究课题,从应用角度而言,它属于智慧搜索、自动问答、知识图谱等系统的关键技术之一;从基础理论研究而言,它对于机器翻译、文本分类、自动摘要、新词发现等自然语言处理技术有重要研究意义。当前国内外对于命名实体关系抽取的研究,大部分集中在ACE(Automatic Content Extraction)定义的七种主要关系类型的研究,而对于诸如农业信息领域的命名实体的研究则比较少见。此外,大部分研究方法集中在知识工程方法或机器学习方法,而其中的机器学习方法大多数使用单纯的有监督或无监督训练方法,而对于结合人工与机器学习的方法研究较为少见。基于命名实体关系抽取的国内外研究现状,本文对香蕉命名实体关系抽取进行了较为深入的讨论,综合应用到了人工和机器学习的方法,具体而言,本文研究工作包括以下几个方面:(1)构建面向香蕉的命名实体语料库。在分析了农业信息的特点的基础上,设计了定向爬虫,并采集了香蕉网页文档。然后设计了基于网页特征的Web信息抽取模型,并完成了对Web网页信息的抽取,接着进行文本清洗、实体识别,最终抽取出命名实体对。(2)面向香蕉的命名实体关系抽取研究。根据已构建的命名实体语料库,定义了本文所要研究和抽取的命名实体关系类型,提出了一种基于Word2Vec和种子自扩展的命名实体关系抽取模型,该模型的核心在于将命名实体对转化为数值向量,并通过计算向量之间的相似度来表征命名实体对之间的相似度,采用此模型对本文构建好的香蕉命名实体语料库进行命名实体关系抽取,设计并分析实验结果,讨论了模型效果。(3)命名实体关系抽取系统设计与实现。针对系统的功能目标,首先设计了系统的总体架构,并进一步完成了系统详细设计,接着根据系统设计完成了系统各功能模块实现。利用本文设计的命名实体关系抽取方法,对本文构建香蕉命名实体语料库中的语料进行若干实验,取得了平均78.4%的准确率、平均60.2%的召回率,具有良好的效果,验证了本文方法的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码导航 ,原文地址:https://bishedaima.com/lunwen/48783.html