基于新浪微博舆情采集与倾向性分析系统
这是一篇关于网络舆情,新浪微博,倾向性分析,趋势预测,Spring的论文, 主要内容为随着互联网的飞速发展,互联网的普及率越来越高,人们越来越愿意通过网络表达自己对一些社会热点、突发事件的个人观点。如今的网络舆情颠覆了传统的模式,开始以一种势不可挡的趋势进入到社会层面,对社会造成十分深远的影响。微博集结了互动功能强大、实时性突出、便捷的手机支持以及名人效应等诸多优点,已经逐步取代博客、贴吧等其他老牌的舆情传播平台,对网络舆情的发展起到了推波助澜的作用,它也成为现如今最重要的网络舆情传播平台。微博的关注功能可以将用户们关联到一起,使得信息的传播速度得到历史性的变革,这也使得利用微博信息进行研究从而掌握舆论发展方向成为可能,更可以为政府、企业提供科学的分析结果,提高它们的决策能力,具有极高的社会价值和商业价值。本系统主要分为舆情采集模块、舆情信息预处理模块、舆情信息分析模块、舆情信息服务模块和系统管理模块等五大模块。选择新浪微博作为舆情分析系统的数据来源,利用Java的定时任务对新浪微博的内容进行定时抓取,将获得的页面内容按照新浪微博页面的结构特点进行分解,存入数据库,再利用文本聚类、向量化等分类手段进行分析,最后通过倾向性分析给出结果,并在舆情分析的基础上以图表的形式将舆情在一段时间的走势呈现给用户。在软件层面上,本系统选择SpringMVC、Spring、Hibernate等开源技术作为整体架构,降低各模块之间的耦合程度,提高程序的可扩展性。在采集和页面解析模块中还分别使用到MySQL、HtmlParser、ICTCLAS中文分词系统等开源技术。在系统开发过程中,我们对系统进行了单元测试、功能性测试、性能测试以及安全测试。在测试过程中我们选择“捉妖记”作为关键词进行数据采集,最终获得2015年7月9日至2015年7月21日之间“捉妖记”相关微博432361条,通过对这些数据的去重、去噪、语义分析、文本聚类、词性分类等一系列操作,最终获得了13天当中关于“捉妖记”话题的舆情走势,以电影上映日期7月16日作为分水岭,上映之前“捉妖记”相关的正面微博占比在45%上下浮动,上映之后正面的微博占比提高到了90%以上。在实际应用中,片方可以根据舆情在不同时期的特点,采取不同的宣传策略,以获得利益的最大化。
基于分布式爬虫的社交媒体灾害信息挖掘系统的设计与实现
这是一篇关于分布式爬虫,新浪微博,地名识别,时空特征分析的论文, 主要内容为近些年来我国社交媒体发展迅猛,社交媒体如新浪微博等每天都会产生大量的数据,如何提高社交媒体数据采集效率,并从中挖掘出灾害相关信息,尤其是时间和空间信息,对于灾害的信息管理和救灾防灾决策支持具有重要意义。基于分布式爬虫的社交媒体灾害信息挖掘系统,通过多节点分布式模式高效采集数据,并提取出其中的时间特征分布和空间特征分布信息,为灾害治理提供数据支撑。灾害信息挖掘系统,使用B/S模式,采用了数据采集、数据存储、数据挖掘和数据展示的四层架构设计。数据采集层以Scrapy-Redis框架为基础,以阿里云服务器上部署的4个Cent OS服务器为爬虫子节点,以新浪微博平台为数据源,以反爬虫技术为辅助手段进行数据抓取。数据存储层包括两个步骤,对原始微博数据进行清洗,将数据存入My SQL数据库。数据挖掘层是对微博数据进行灾害信息挖掘,主要是对时间特征信息和空间特征信息的提取,时间特征信息利用数据库查询技术进行提取,微博文本地名识别采用地名库匹配以及地名前后缀算法同时进行,并借助高德地图开发接口进行逆编码转换成经纬度坐标。数据展示层是将采集的微博信息和分析处理后的数据信息,以图表等形式进行可视化,Django框架搭建的网页是进行数据展示的基础,微博文本信息、微博用户信息和处理分析后的时间特征信息是采用ECharts库以图表形式展示,空间特征信息则采用高德地图展示位置分布。通过四层架构设计完成对社交媒体数据的高效抓取和灾害信息挖掘以及可视化。灾害信息挖掘系统使用发生时间不同并且影响范围也不相同的利奇马台风、白鹿台风灾害作为案例,抓取新浪微博相关数据,挖掘时空特征后,分别进行时间分布分析和空间分布分析。实验结果表明,每次灾害的数据采集时间均能保持在30分钟以内,并且时空分布均能反映台风灾害的演变情况。灾害信息挖掘系统能高效抓取社交媒体数据,并从中挖掘出灾害信息,可应用于包括台风在内的多种灾害场景,为灾害信息管理提供了新的思路。
基于改进LDA模型的社交网络用户行为分析
这是一篇关于社交网络,新浪微博,用户行为分析,爬虫,主题挖掘,LDA的论文, 主要内容为随着互联网的快速发展,以微博为代表的社交网络已经成为用户发布和获取实时信息的重要手段。网络信息的爆炸性增长,一方面带来了更多消息来源,另一方面使得获取实用信息的难度加大。通过有效的手段,精准地发现、组织和利用社交网络海量短文本背后隐藏的有价值的信息,分析研究用户的行为特征,不仅具有较高的舆情监控和商业推广价值,还有助于互联网的综合管理。本文以国内主流社交网站新浪微博为研究对象,对微博数据采集和用户行为特点进行深入的研究,主要贡献和创新之处如下:1.微博信息爬虫系统。本文设计并实现了一种基于改进布隆过滤器的新浪微博信息爬虫系统,该系统主要针对布隆过滤器误识率问题进行改进,提供了一种高效的URL去重方案,解决URL去重效率低的问题,同时解决了新浪微博用户数据获取和存储问题。2.异常用户行为分析。根据爬取到的微博用户数据,分析异常用户的行为特点。对LDA模型进行改进,设计适用于处理用户关系数据的UR-LDA模型。利用UR-LDA模型对词化后的微博垃圾用户特征进行降维和聚类。3.用户关注话题分析。由爬虫系统获取的用户数据挖掘出用户关注的话题。首先用中文分词系统ICTCLAS对用户微博数据进行分词和去停用词处理,然后利用UR-LDA模型进行主题挖掘,最后对用户进行聚类分析。在实验过程中,本文将基于改进的布隆过滤器和传统的布隆过滤器过滤器进行分析和比较,结果表明,本文设计的爬虫系统具有更高的URL去重效率,爬取微博数据更加高效。通过LDA模型对和UR-LDA模型对微博主题挖掘效果对比,实验结果表明UR-LDA能更加有效地挖掘出用户关注的话题。
面向“一带一路”的社交网络舆情空间语义关联分析
这是一篇关于新浪微博,网络舆情,中文分词,词频,WebGIS,语义关联,聚类分析的论文, 主要内容为在大数据时代,如何快速、高效的对海量的多源数据进行分析并建立舆情监控和引导机制从而为管理者提供决策支持是当前研究的热点和难点。随着空间数据采集、存储和分析处理等现代技术手段的迅速发展,一方面,空间数据量急剧膨胀,复杂性显著增大;另一方面,空间数据库存在的大量空间数据及其相关的非空间数据中隐藏的许多重要的信息未得到充分利用,尤其对于网络舆情数据分析方面发展缓慢。新浪微博在我国拥有上千万的用户量,每天产生大量的用户信息,分析和挖掘新浪微博舆情数据具有很高的应用价值。本文针对目前研究新浪微博网络舆情较少的前提下,以面向“一带一路”的社交网络舆情空间语义关联分析为研究方向,利用新浪微博网络舆情数据,通过自然语言处理和空间分析等方法,主要完成了以下内容:(1)通过分析关于“一带一路”话题的新浪微博网络舆情数据,设定用于数据获取的关键词,并通过数据爬虫技术和新浪微博开放平台提供的数据接口两种方法获取到新浪微博网络舆情数据。(2)对获取得到的新浪微博网络舆情数据进行分析,设计网络舆情数据存储类型和数据组织形式,并使用MySQL网络数据库对数据进行存储,构建主键和数据库引擎,使数据的检索等操作更为便捷。(3)选择了合适的获取地理空间数据方法,包括博文文本自带的地址数据、IP地址解析等,通过百度地图地址解析API得到百度地图坐标系的经纬度坐标,并通过坐标系转换获取图块坐标。通过中文文本分词技术对博文文本进行分词处理,统计了博文热词词频,得出了高频热词,并通过分析新浪微博话题表现形式,结合高频热词总结出了热门话题。(4)构建文本语义相似度分类模型,实现了对未知博文文本自动分为对应的主题类别。通过构建语义树,计算了基于主题的语义关联度,得到了语义树各个节点之间的关联度,为信息检索提供了支持。对网络舆情进行了时空特征分析,总结了网络舆情按照时间和空间上的变化规律和分布状况。针对百度地图瓦片服务,实现了基于瓦片图块的空间语义聚类分析。(5)结合WebGIS相关技术,利用Vue、Laravel等开发框架,构建了基于B/S的面向“一带一路”的社交网络舆情空间语义关联分析可视化平台。
阿里巴巴并购新浪微博的动因、效应及风险防范研究
这是一篇关于阿里巴巴,新浪微博,互联网企业,并购动因与效应,并购风险与防范的论文, 主要内容为2012年以来,大量互联网企业以并购的方式扩张经营规模,对世界经济产生了巨大的影响。特别是2015年以来阿里巴巴并购优酷土豆、58同城并购赶集网、携程旅游并购去哪儿网、万达集团并购传奇影业、腾讯并购荷兰手游开发商Supercell、京东并购一号店等众多并购事件的发生,众多互联网企业以迅雷不及掩耳之势掀起了一股巨大的井喷式的并购浪潮。随着“互联网+”的兴起和“中国制造2025”国家战略的推进,未来会有越来越多的传统企业进入互联网行业,而且在互联网行业中企业之间的界限将越来越模糊,跨界并购的现象将十分普遍。2008年阿里巴巴开始打造电子商务生态系统,以大数据业务为核心,着力发展电商、金融、物流,向健康、快乐和全球化业务拓展。阿里巴巴作为我国目前最大的电商,新浪微博作为我国当前最有影响的互联网社交媒体之一,二者的并购产生了我国最大的社交电商平台。本文在借鉴国内外有关企业并购理论研究和实践经验的基础上,分析了阿里巴巴与新浪微博的发展状况以及阿里巴巴并购新浪微博的过程和动因,探究了阿里巴巴并购新浪微博的协同效应和规模经济效应,从并购前的目标公司财务风险、并购中的融资与支付风险、并购后的战略整合风险等方面揭示了阿里巴巴集团并购新浪微博的风险,进而从并购前、并购中、并购后等环节提出了阿里巴巴并购风险的防范策略。本文的主要结论有:(1)阿里巴巴并购新浪微博的动因源于实现规模经济效应、顺应市场发展需要、提高综合竞争实力、拓宽自身融资渠道等需要,这是并购双方都追求的目标;(2)阿里巴巴并购新浪微博的效应体现在两个方面:一方面,阿里巴巴对新浪微博的并购给双方都带来了比并购前更大的收益,其营业收入和净利润均明显上升,产生了1+1大于2的显著协同效应;另一方面,阿里巴巴并购新浪微博产生了规模经济效应;(3)阿里巴巴并购新浪微博的风险集中于并购前的选择目标公司财务风险、并购过程中的融资与支付风险,以及并购实施后的双方战略整合风险等三个方面;(4)阿里巴巴并购新浪微博风险的防范,应着力于三个方面:通过明确并购意图、寻找锁定并购目标、构建风险评估体系、优化收购方案等防控并购前风险;通过规避融资支付风险等防控并购中风险;通过防范业务整合、人力资源整合、企业文化整合、企业战略整合等并购中的风险以防控并购后的风险。
基于新浪微博的信息溯源系统的设计与实现
这是一篇关于新浪微博,信息采集,网络爬虫,信息分析,溯源系统的论文, 主要内容为近年来,微博已经成为一种最受欢迎的在线社交网络平台。随着其高速发展,信息传播量也得到迅猛增长。在如此大的信息量下,微博信息溯源成为微博信息传播领域中的重要研究内容,是微博信息筛选、事件传播态势分析、微博舆情监控等很多相关领域的重要基础。本文设计并实现了基于新浪微博的信息溯源系统。根据实际功能需要,本系统主要划分为新浪微博信息采集和新浪微博信息分析两大子系统,新浪微博信息采集子系统主要包括基于新浪API的信息采集、基于cookie的信息采集、反爬取和数据管理等模块。该子模块通过多线程和增量式爬取信息。获取的微博信息主要包括微博内容、评论列表、转发列表、用户个人信息等多方面。新浪微博信息分析子系统主要包括微博事件分析、用户影响力分析和微博信息溯源等模块。综、合考虑时间和影响力两个因素,对新浪微博中某个事件进行溯源。系统在MyEclipse开发工具下,结合MySQL数据库,前台使用JSP技术进行用户界面的展示,后台采用Java编程语言来实现。系统开发完成后,经过功能测试和非功能测试,证明系统实现了新浪微博信息溯源的目标。本文阐述了从系统需求分析、系统设计、系统实现到系统测试整个过程。系统从信息采集到信息分析,综合应用了网络爬虫、基于API的信息获取、基于LSA的文本聚类、影响力分析等核心技术,实现了基于新浪微博的在线社交网络信息溯源系统。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码港湾 ,原文地址:https://bishedaima.com/lunwen/51550.html