7篇关于数据爬取的计算机毕业论文

今天分享的是关于数据爬取的7篇计算机毕业论文范文, 如果你的论文涉及到数据爬取等主题,本文能够帮助到你

电影网站数据挖掘可视化系统设计与实现

这是一篇关于数据挖掘,数据爬取,预处理,数据可视化的论文, 主要内容为随着互联网产业和电影产业的高速发展,二者的联系也越来越紧密,许多的互联网视频网站也应运而生,传统的互联网视频网站聚集了大量的电影资源,只为用户提供观看以及下载的渠道,而用户想在海量的影视资源中寻求合适的电影观看非常困难,为了给用户在海量的电影资源中作出客观合理的抉择提供一定的参考,从电影网络影评为切入点设计了电影数据挖掘的可视化系统。由于网络上的影评包含了观影用户丰富的感情和倾向,也包含了在情感和语义层面上不同电影之间的关联程度。该系统以电影影评文本为研究的切入点,在文本中挖掘出电影之间的联系。首先基于Scrapy构建了一套爬虫系统,用来采集的电影相关数据,为整个可视化系统提供了广泛而可靠的数据支持,在完成电影影评文本获取的基础之上,使用分词,去停用词,构建电影相关领域的情感词库等文本预处理方法,并同时利用基于构建好的情感词典对影评文本进行情感分析,其次,对影评文本和电影简介组成的文档进行特征提取,然后利用基于距离的聚类算法K-Means对采集的电影进行归类。由于需要以词云的形式来展示影评的关键词,所以采用了关键词抽取的常用算法TF-IDF来抽取影评的关键词。最后,除了对影评文本的一个分析,还利用Echarts插件对影评用户和影评运营情况进行了一个统计分析做了一个可视化的展示。基于对该系统的使用,能够帮助用户获得电影影评文本的整体情感倾向,将个性化服务与大众的智慧两者之间有机地结合起来,可以真实地反映出不同用户对于电影的感受,可以满足用户个性化需求,能够高效地监测社交舆情并为用户观影提供更加合理并且客观的参考。

基于NLP的水利舆情系统设计与实现

这是一篇关于水利舆情系统,自然语言处理,情感分析,关键词提取,数据爬取的论文, 主要内容为我国是一个水灾多发的国家,水灾的发生往往会给人们带来很多不利的影响。近年来,随着互联网的发展,人们能够越来越方便的在网络上发表和水利有关的新闻和言论,但往往有些新闻或者言论是虚假的,甚至会给社会带来负面影响。目前的舆情系统具有普适性,并没有针对特定的水利行业进行舆情分析,同时水利舆情研究主要集中在理论方面。因此,利用NLP技术中的情感分析和关键词提取监测负面新闻的传播来维护社会稳定是可行且有效的。本文针对水利新闻舆情分析中的情感分析和关键词提取进一步研究,提供更好的水利舆情监测方案。本文主要进行了以下研究:在水利舆情情感分析方面,针对BERT处理长文本直接截断丢失文本信息的问题,提出了基于完整句分割的BERT-BiLSTM新闻文本分类模型,能保证文本语义的完整性。除此之外,BiLSTM相对于LSTM兼顾了上下文信息,能提取文本中更深层次的语义信息。实验证明本论文提出的模型F1值为89.83%,相比传统的BERT-LSTM对新闻舆情识别的准确率效果更好。在水利舆情新闻关键词提取方面,TextRank算法在关键词提取时具有普适性并且没有涉及词位置信息,本论文提出了多特征融合的TextRank水利新闻关键词提取模型。针对TextRank提取关键词时的普适性,维护一份水利行业关键词词典,在词典中存在的水利关键词赋予更大的权值融合到算法中。针对词位置信息,出现在文章不同位置的关键词赋予不同的权重融合到算法中。实验证明本论文提出的算法F1值为61.09%,相比传统TextRank算法在提取水利新闻关键词时能获取到更准确的关键词。在系统设计方面使用python进行数据获取,舆情信息监测和关键词提取。将处理好的数据存到mysql数据库中,服务端使用SpringBoot框架提供舆情数据接口,前端使用React框架处理展示数据,通过多个维度的舆情数据展示实现了一个完整的水利舆情监测系统。

基于用户偏好的个性化音乐推荐系统应用与研究

这是一篇关于推荐系统,数据爬取,音乐推荐,偏好模型的论文, 主要内容为随着信息爆炸式增长,网络资源面临信息过载问题。面对互联网中海量的音乐资源,人们难以快速找到与自身兴趣相符合的音乐。为使用户能够有效获取所需的音乐信息,音乐推荐系统应运而生,它的出现能够帮助用户快速地找到自己想要的音乐。这种个性化推荐服务能够为用户提供更加优秀的体验,并具有商业优势,因此音乐推荐领域也成为互联网行业中相当重要的研究方向。就音乐推荐系统而言,当用户在系统中进行一段时间的操作后,会产生大量的显式和隐式行为数据。对于音乐推荐而言,如果无法有效利用这些用户数据,将使得用户无法根据自身行为习惯找到听歌偏好类似的音乐,降低用户体验。基于以上问题,本文通过分析国内外主流音乐推荐系统,重点研究用户行为数据与数据集数据间的潜在关系与音乐推荐方法的设计,并在此基础上实现了基于用户偏好的个性化音乐推荐系统,其主要研究成果如下:1.分析主流音乐推荐算法,完成数据集构建。为找寻用户偏好模型构建方法,对主流的音乐推荐算法进行对比分析,着重对所需的数据集进行研究,结合偏好特征等多方面因素考虑,采用自行构建音乐数据集的方式,将具有音乐特征属性的网易云音乐的歌单数据作为系统数据集。首先分析网站前端数据,使用爬虫工具获取用户在互联网中创建的歌单详细数据,根据得到的结果进行数据预处理,获得的结果作为建立用户偏好模型的依据。2.对用户偏好模型、信息进行理论分析,对现有音乐推荐系统进行对比,提出了融合偏好特征与近邻用户模型的混合推荐算法。前者通过融合用户隐式数据与歌单中音乐的相似值建立用户偏好模型进行推荐,后者根据用户偏好相似性实时修改相似度阈值方式查找近邻用户,进行用户相似度计算产生推荐结果,最后将两种推荐产生的数据实行加权融合达到混合推荐的目的。结合音乐和歌单标签数据,通过用户预选标签与音乐标签间的关联关系实现对新用户的推荐。最终通过实验得出此种混合推荐方法的准确率和召回率优于传统推荐算法。3.通过结合音乐推荐系统的实际需求,在进行了系统流程分析并确定核心算法的基础上进行推荐系统的需求分析、架构设计、数据库设计以及功能模块设计,设计并实现了一个基于混合推荐算法的个性化音乐推荐系统。系统实现了数据的采集、处理与存储,用户交互等模块,使其在音乐推荐的基础上功能更加完善。