分享6篇关于主题聚类的计算机专业论文

今天分享的是关于主题聚类的6篇计算机毕业论文范文, 如果你的论文涉及到主题聚类等主题,本文能够帮助到你 基于品牌手机评论的情感分析研究 这是一篇关于情感分析,粗粒度,细粒度

今天分享的是关于主题聚类的6篇计算机毕业论文范文, 如果你的论文涉及到主题聚类等主题,本文能够帮助到你

基于品牌手机评论的情感分析研究

这是一篇关于情感分析,粗粒度,细粒度,注意力机制,主题聚类的论文, 主要内容为随着电商行业的兴起和互联网的快速发展,网购在生活中的占比越来越高,在方便消费者购物的同时,也让人们对商品的品牌品质产生了更高的追求。基于电商平台的载体,一种以评论为导向的消费方式逐步在市场上扩充开来。消费者购买商品时,常常会参考该商品相关的评论,从而可能影响或调整自己的购买意愿;评论对于商家来说也能了解到消费者的情感倾向,可以辅助商家进行舆情分析、产品优化、用户画像和营销决策等,提高经济效益。但是面对快速增长的数据,不能也不必采用低效率的人工处理的方式,需要的是开发出能自动化分析商品评论情感倾向的工具,从海量的评论中挖掘出有价值的商品属性和情感倾向,既帮助消费者更好地选购商品,也有效辅助商家更好地了解消费者的观点。本文将从以下两个方面进行研究:粗粒度的手机评论情感分析和细粒度的手机评论属性情感分析。粗粒度主要是判断评论整体的情感倾向,是偏向积极还是消极;细粒度主要是挖掘手机评论中的属性特征和对应的消费者观点,并确认其情感极性和属性种类,将其归到对应的主题中。具体研究成果如下:(1)粗粒度的情感分析采用引入注意力机制的深度学习算法。针对已有算法存在前后句对间没有联系、训练顺序只能是时间顺序的缺点,在模型中引入了注意力机制。本文采用了GRU和双向LSTM的改进版,克服了原有算法的缺点,并与基础算法进行对比分析,还采用了效果较好的Transformer模型。实验结果表明:原有的LSTM模型的准确率较低为59%,GRU的准确率与LSTM模型相差不大,Transformer模型的准确率能达到96%,而经过改进的GRU和双向LSTM的准确率能够达到97%,比单一模型的准确率有较大提升,同时也证明了注意力机制的有效性。(2)细粒度的情感分析采用基于word2vec的主题聚类的方法。针对现有常见的主题聚类模型存在的问题,本文先利用哈工大LTP对评论作预处理,从评论数据中找到手机属性作为主题中心词;然后用word2vec对主题进行聚类并建立主题属性字典,将属性归类到相应的主题中;接下来利用SnowNLP计算每个主题下的每条评论的情感值并根据相应的阈值划分积极、中性和消极三类情感;最后将不同品牌的属性情感分析对比情况以及某一品牌的评论情感得分以可视化的形式展现出来,达到对不同品牌相同属性和同一品牌不同属性进行对比分析的目的。结果表明:对于不同品牌相同属性,可以明确各个品牌手机的优劣势,消费者能选择更合适的品牌;对于同一品牌不同属性,可以量化各个属性的被关注程度和消费者的情感程度,帮助消费者更全面具体地了解品牌,同时商家也能对其商品进行优化,带来更大的收益。

危险化学品事故信息命名实体识别方法研究

这是一篇关于危险化学品,嵌套实体,命名实体识别,主题聚类,主动学习的论文, 主要内容为化学工业作为我国重要的基础性产业,推动着国民经济快速发展。然而由于危险化学品(危化品)不稳定的理化性质,其在生产、运输和储存过程中均存在巨大风险。一旦发生事故就会给人民生命健康带来重大威胁,给社会和谐稳定带来极大挑战。为落实安全生产,应急管理部门就危化品安全生产提出“智能化事故信息反馈”与“建立相关应急资源知识图谱”。因此,面向危化品事故领域的命名实体识别逐渐成为现阶段研究热点。本课题围绕危化品事故数据,应用自然语言处理技术,探究危化品事故致因图谱的构建,为危化品的安全生产、运输、存储、应急处置等提供有力的数据支撑和科学的处理方法。本课题主要工作包括以下几个方面:(1)融合规则模板和Global Pointer的危化品事故实体识别。根据危化品事故实体特点对危化品事故数据进行划分:一类具有明显结构特征,格式相对固定(如:日期、时间等);另一类结构特征不明显,表述形式多样、多种实体相互重叠、相互嵌套(如:组织机构、事故原因等),提出融合规则模板和Global Pointer的危化品事故实体识别方法。对于第一类实体,抽象其结构特征,设计规则匹配模板进行识别。对于第二类实体采用基于Global Pointer的模型进行识别。真实数据集下的实验结果验证了本文提出的方法在危化品事故领域的实体识别效果高于目前流行的实体识别方法。(2)融合样本不确定性和多样性的危化品事故实体主动识别。针对危化品领域缺乏标注语料问题,借助主动学习选出高质量样本进行标注,提出融合样本不确定和多样性的危化品事故实体主动识别方法。首先,利用隐含狄利克雷分布进行主题聚类,选出具有代表性的初始样本。其次,综合考虑样本信息量、多样性以及初始主题聚类信息,通过对样本的不确定性和多样性进行评估,选出综合得分较高的样本进行标注并加入模型训练。最后,根据模型F1值设定主动学习终止条件,结束整个迭代过程。实验结果表明,本研究提出的方法能够有效减少数据标注工作并提升整体识别F1值。(3)危化品事故信息实体识别系统设计与实现。应用本文的研究成果,设计并开发危化品事故信息实体识别系统。该系统以可视化的方式展示了危化品事故信息实体识别的关键步骤,同时该系统内集成了大量命名实体识别算法,对本文研究成果进行对比验证与分析。此外,在实体识别的基础上,构建了危化品事故知识图谱并设计neo4j知识模型对图谱进行存取与查询。

基于大数据的公共数字文化资源领域知识图谱的研究

这是一篇关于公共文化资源,知识图谱,本体,主题聚类,向量空间模型的论文, 主要内容为我国近年来进行了许多公共文化服务的数字化建设探索,然而与当前社会的发展水平和我国国民日益增长的精神文化需求相比,现在的公共文化服务水平仍然有待提升。公共数字文化服务的研究在保障和提高人民生活水平方面上有重大的意义。公共文化数字资源领域的知识图谱可以为公共文化服务和文化数字资源共享奠定理论基础与技术支持,可以大力推进我国的公共文化服务的数字化建设。本文以公共文化大数据应用为背景,论述了公共数字文化领域内的知识图谱的构建过程。首先,对公共文化资源以及公共数字文化资源相关数据进行了分类整理,确定了本体的核心概念集,使用Protege 5.0构建该本体,并用OWL语言描述公共数字文化本体。其次,构建了面向公共文化领域的知识图谱模型。该模型包括网络数据采集模块、基于Han LP的分词过滤实体识别系统、以及实体关系抽取模块。实体关系抽取模块部分提出了面向公共文化的实体关系构建方法。针对公共文化数据的特点,使用文档代替实体,文本建模处理文档,进而使用主题聚类的K-means算法和公共文化本体进行规则推理完成关系构建。文本建模选用了不同的主流实体资源建模方法,包括基于TFIDF和基于Word2Vec的向量空间模型构建,以及基于LDA的主题模型构建。将实验结果进行对比,验证了各文本建模方法在算法时间上的高效性,最后选择了LDA主题模型来构建实体资源的语义关系,为公共文化资源关系的构建提供理论依据。最后,完成了公共数字文化资源知识图谱平台的实现与应用。搭建了基于Hadoop的云平台的基本架构,并在此基础上进行了知识图谱平台的设计与实现;将知识图谱应用于公共文化资源个性化推荐系统上,并基于知识图谱的推荐结果进行了可视化展示。本文将自然语言处理领域的TF-IDF,Word2Vec和LDA模型用于公共数字文化资源的信息关系构建,通过实验对比三个不同模型的不同聚类效果,验证算法的效率和语义关联性,为公共文化资源关系的构建建立基础,具有一定的现实意义。

基于自定义词典的网络文本情感分析方法

这是一篇关于微博,主题聚类,情感分类,自定义词典,双向LSTM的论文, 主要内容为随着当前互联网用户越来越多,社交平台可以获取到的数据也日益增长,微博就是热门的社交平台之一。作为一种社交媒体,微博提供了平台共享,用户可以分享他们对某些主题的感受和想法。微博的热点主题一般是新出现的焦点事件,这些事件立即吸引更多的关注者和更多的在线关注,这提供了一个独特的机会来将公众的情绪与这些用户关注的事件结合起来分析。主题聚类、情感分析和舆情分析一直是自然语言处理热门的领域,本论文在已有的研究基础上,进行研究并提出新的研究方法,对新浪微博的数据进行挖掘、分析和可视化,主要工作如下:第一,挖掘已知主题关键字的微博。现有的主题聚类方法是在不知道主题关键字的情况下,发现主题和主题聚类同时进行,例如热门微博话题发现和聚类。本论文在已知的主题关键字下发现及扩充相关微博。已有的主题挖掘方法,巧妙的使用了新浪微博特有的“#”标签,使用分层聚类算法,将带有“#”标签的微博有效地进行主题聚类,但忽略了大部分不带“#”标签的消息。本文在此之上,基于带有“#”标签的主题聚类,扩充可以挖掘的同一主题的不带“#”标签的微博,并将这种方法用于微博主题爬虫。第二,基于自定义词典、注意力机制的双向LSTM微博文本情感分类。已有的基于注意力机制的双向LSTM文本分类方法,若使用word2vec的文本表示方法,则会有只考虑上下文太小,没有考虑全局统计的情况,从而加入使用GloVe的文本表示方法,而上述两种方法都未考虑词性对文本分类的影响。本论文在典型的基于注意力机制的双向LSTM文本分类方法中,加入自定义词典,使用word2vec、Glove和词性的三词向量的文本表示方法,同时改进神经网络结构。第三,实时的微博主题消息挖掘和情感分析系统。实现实时微博主题爬虫系统,包括关键字微博消息爬取,微博消息可搜索,情感分析结果图,消息国内分布情况等功能的可视化。系统考虑到数据获取,数据库存储,数据分析,数据展示,按软件的需求分析,系统设计,系统实现,系统测试进行叙述。

基于用户选购及在线点评行为的门店画像研究

这是一篇关于门店画像,网络爬虫,情感分类,主题聚类,Spark的论文, 主要内容为随着依托于互联网的O2O电子商务快速发展,使的O2O企业能够收集到的相关数据呈井喷式增长。为有效挖掘此类数据,本文重点研究在线点评文本的情感分类和主题聚类,并以此为基础结合用户选购行为数据提出一套门店画像构建及应用的完整思路。本文的主要工作包括:设计并开发爬虫系统抓取实验数据。动态Web信息获取是目前爬虫的一个技术难点。本文为获取实验数据,依据Scrapy开源爬虫系统设计逻辑,在浏览器测试框架Selenium中嵌入基于Phantom JS的Ghost Driver驱动,设计并开发出一个可抓取动态Web信息的网络爬虫系统:nlp-dynamic-spider。并基于此抓取了大众点评一线城市服装行业的门店、用户在线点评以及用户数据作为本文的实验数据。通过在词库中添加新词和领域词提高分词准确度。由于评论文本中包含大量网络流行词、领域词,导致分词不准确。本文依据候选词词内凝固度、边界自由度、出现次数、文档频率等特征引入大规模语料的新词识别算法,有效识别出网络评论流行词,并在此基础上加入服装行业领域词进一步提高分词准确度。基于浅层深度学习算法Word2Vec引入三种文本表示算法。本文通过将传统的BOOL、TF、TF-IDF文本表示法结合浅层深度学习词向量Word2Vec算法,通过线性加权求和的方式引入BOOL-W2V、TF-W2V、TF-IDF-W2V三种文本DR表示算法。并在四个不同的点评数据集上对这六种表示法进行情感倾向分类对比实验。实验结果表明:在语料库中文档较多但标注样本占比低、标注不平衡的情况下,TF-W2V文本表示法比另外五种文本表示法效果更好。构建基于Spark大数据平台的文本挖掘组件。为提高海量在线点评文本信息处理速度,采用分布式并行处理技术是目前的趋势。本文基于目前最流行的大数据处理平台Spark,并在其提供的基础接口之上,设计了一系列中文处理的算法,包括:新词发现、多种中文文本表示、文本特征提取等,并构建出基于Spark大数据平台的文本挖掘组件:nlp-spark。基于用户选购和在线点评行为的门店画像。本文利用用户选购行为数据以及依据本文挖掘的在线点评行为数据构建整个门店画像的指标体系。并给出了门店画像指标建模的思路和实际生产应用的建议。

基于自定义词典的网络文本情感分析方法

这是一篇关于微博,主题聚类,情感分类,自定义词典,双向LSTM的论文, 主要内容为随着当前互联网用户越来越多,社交平台可以获取到的数据也日益增长,微博就是热门的社交平台之一。作为一种社交媒体,微博提供了平台共享,用户可以分享他们对某些主题的感受和想法。微博的热点主题一般是新出现的焦点事件,这些事件立即吸引更多的关注者和更多的在线关注,这提供了一个独特的机会来将公众的情绪与这些用户关注的事件结合起来分析。主题聚类、情感分析和舆情分析一直是自然语言处理热门的领域,本论文在已有的研究基础上,进行研究并提出新的研究方法,对新浪微博的数据进行挖掘、分析和可视化,主要工作如下:第一,挖掘已知主题关键字的微博。现有的主题聚类方法是在不知道主题关键字的情况下,发现主题和主题聚类同时进行,例如热门微博话题发现和聚类。本论文在已知的主题关键字下发现及扩充相关微博。已有的主题挖掘方法,巧妙的使用了新浪微博特有的“#”标签,使用分层聚类算法,将带有“#”标签的微博有效地进行主题聚类,但忽略了大部分不带“#”标签的消息。本文在此之上,基于带有“#”标签的主题聚类,扩充可以挖掘的同一主题的不带“#”标签的微博,并将这种方法用于微博主题爬虫。第二,基于自定义词典、注意力机制的双向LSTM微博文本情感分类。已有的基于注意力机制的双向LSTM文本分类方法,若使用word2vec的文本表示方法,则会有只考虑上下文太小,没有考虑全局统计的情况,从而加入使用GloVe的文本表示方法,而上述两种方法都未考虑词性对文本分类的影响。本论文在典型的基于注意力机制的双向LSTM文本分类方法中,加入自定义词典,使用word2vec、Glove和词性的三词向量的文本表示方法,同时改进神经网络结构。第三,实时的微博主题消息挖掘和情感分析系统。实现实时微博主题爬虫系统,包括关键字微博消息爬取,微博消息可搜索,情感分析结果图,消息国内分布情况等功能的可视化。系统考虑到数据获取,数据库存储,数据分析,数据展示,按软件的需求分析,系统设计,系统实现,系统测试进行叙述。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工厂 ,原文地址:https://bishedaima.com/lunwen/56065.html

相关推荐

发表回复

登录后才能评论