基于python实现的上市公司新闻文本分析与分类预测

上市公司新闻文本分析与分类预测 1, 简介 上市公司新闻文本分析与分类预测的基本步骤如下: 从新浪财经,每经网,金融界,中国证券网,证券时报网上

本文包含相关资料包-----> 点击直达获取<-------

上市公司新闻文本分析与分类预测


1. 简介

上市公司新闻文本分析与分类预测的基本步骤如下:

  • 从新浪财经、每经网、金融界、中国证券网、证券时报网上,爬取上市公司(个股)的历史新闻文本数据(包括时间、网址、标题、正文)
  • 从Tushare上获取沪深股票日线数据(开、高、低、收、成交量和持仓量)和基本信息(包括股票代码、股票名称、所属行业、所属地区、PE值、总资产、流动资产、固定资产、留存资产等)
  • 对抓取的新闻文本按照,去停用词、加载新词、分词的顺序进行处理
  • 利用前两步中所获取的股票名称和分词后的结果,抽取出每条新闻里所包含的(0支、1支或多支)股票名称,并将所对应的所有股票代码,组合成与该条新闻相关的股票代码列表,并在历史数据表中增加一列相关股票代码数据
  • 从历史新闻数据库中抽取与某支股票相关的所有新闻文本,利用该支股票的日线数据(比如某一天发布的消息,在设定N天后如果价格上涨则认为是利好消息,反之则是利空消息)给每条新闻贴上“利好”和“利空”的标签,并存储到新的数据库中(或导出到CSV文件)
  • 实时抓取新闻数据,判断与该新闻相关的股票有哪些,利用上一步的结果,对与某支股票相关的所有历史新闻文本(已贴标签)进行文本分析(构建新的特征集),然后利用SVM(或随机森林)分类器对文本分析结果进行训练(如果已保存训练模型,可选择重新训练或直接加载模型),最后利用训练模型对实时抓取的新闻数据进行分类预测

开发环境 Python-v3(3.6)

  • gensim==3.2.0
  • jieba==0.39
  • scikit-learn==0.19.1
  • pandas==0.20.0
  • numpy==1.13.3+mkl
  • scipy==0.19.0
  • pymongo==3.6.0
  • beautifulsoup4==4.6.0
  • tushare==1.1.1
  • requests==2.18.4
  • gevent==1.2.1

2.文本处理( text_processing.py )

  • 文本处理包括去停用词处理、加载新词、中文分词、去掉出现次数少的分词
  • 生成字典和Bow向量,并基于Gensim转化模型(LSI、LDA、TF-IDF)转化Bow向量
  • 计算文本相似度
  • 打印词云

3. 文本挖掘( text_mining.py

  • 从新闻文本中抽取特定信息,并贴上新的文本标签方便往后训练模型
  • 从数据库中抽取与某支股票相关的所有新闻文本
  • 将贴好标签的历史新闻进行分类训练,利用训练好的模型对实时抓取的新闻文本进行分类预测

4. 新闻爬取

crawler_cnstock.py crawler_jrj.py crawler_nbd.py crawler_sina.py crawler_stcn.py

  • 分析网站结构,多线程(或协程)爬取上市公司历史新闻数据

5. Tushare数据提取( crawler_tushare.py

  • 获取沪深所有股票的基本信息,包括股票代码、股票名称、所属行业、所属地区等

6. 用法

  • 配好运行环境以及安装MongoDB,最好再安装一个MongoDB的可视化管理工具Studio 3T
  • 先运行 run_crawler_cnstock.py run_crawler_jrj.py run_crawler_nbd.py run_crawler_sina.py run_crawler_stcn.py 这5个py文件,而且可能因为对方服务器没有响应而重复多次运行这几个文件才能抓取大量的历史数据
  • 接着运行 run_crawler_tushare.py 从Tushare获取基本信息和股票价格
  • 最后运行 run_main.py 文件,其中有4个步骤,除了第1步初始化外,其他几步最好单独运行
  • 注意:所有程序都必须在文件所在目录下运行

参考文献

  • 基于微服务的新闻类网站爬虫与分类检索平台设计及实现(中国科学院大学(中国科学院大学人工智能学院)·陈本康)
  • 基于深度学习的新闻文本分类方法研究与应用(北京建筑大学·刘开峰)
  • 基于增量型聚类的新闻话题检测系统设计与实现(山东师范大学·郑茹月)
  • 基于股票数据流和投资者情绪的股价预测系统的设计与实现(华南理工大学·陈泽铭)
  • 结合财经文本情感分析的股票价格预测研究(国防科技大学·白欣怡)
  • 新闻事件识别系统的研究与实现(北京邮电大学·李昕)
  • 基于增量型聚类的新闻话题检测系统设计与实现(山东师范大学·郑茹月)
  • 金融信息实时发布系统的设计与实现(东北大学·伦健)
  • 基于微服务的新闻类网站爬虫与分类检索平台设计及实现(中国科学院大学(中国科学院大学人工智能学院)·陈本康)
  • 基于移动平台股票资讯搜索与预测系统研究(哈尔滨理工大学·滕文达)
  • 基于深度学习的新闻事件分析系统的研究与实现(北京邮电大学·俞书琪)
  • 基于爬虫的网络新闻订阅和跟踪系统的设计与实现(华中科技大学·严园)
  • 与股票关联的财经新闻文本分类分级研究(武汉大学·石静)
  • 基于情感分析和注意力机制的虚假新闻检测算法研究与应用(南昌大学·李思敏)
  • 文本综合处理平台的研究与实现(济南大学·王孟孟)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设助手 ,原文地址:https://bishedaima.com/yuanma/35707.html

相关推荐

  • 租房管理系统

    这是一个🔥🔥基于SpringBoot框架的租房管理系统设计与实现🔥🔥的项目源码,开发语言Java,框架使用的SpringBoot+vue技术,开发环境Idea/Eclipse
    2024年05月23日
    2 1 1
  • 基于SSM框架的电影院售票系统

    电影产业作为文化产业的重要组成部分,在数字化时代迎来了前所未有的发展机遇,随着互联网技术的普及和移动支付的便利,电影院售票系统的建设显得尤为重要,本论文旨在基于SSM框架构建一个高效
    2024年05月07日
    42 1 9
  • Python实现基于改进的KNN网站分类系统

    基于特征熵值分析的网站分类系统实现 摘要 随着互联网技术的飞速发展,Internet 上的 Web 页面呈指数型增长,对于如何自动对这些海量数据有效处理和管理
    2024年05月14日
    2 1 1
  • 基于Struts框架的电子银行系统

    基于Struts框架的电子银行系统 一,背景 随着信息技术特别是网络技术的不断发展,网上电子银行,一种通过网络提供金融服务的新事物,正顺应时代潮流快速发展
    2024年05月14日
    2 1 1
  • 基于SpringBoot框架的医护人员排班系统

    这是一个采用🔥🔥SpringBoot核心框架构建的医疗人员排班管理系统源代码,编程语言为Java,该项目巧妙融合了SpringBoot技术和Vue,js前端框架,开发工具涵盖Idea或Eclipse
    2024年05月23日
    3 1 1
  • 基于MySql和JSP的题库管理系统

    基于MySql和JSP的题库管理系统 第一章 选题意义及可行性 1,1 背景及意义 随着电脑网络的不断普及,计算机技术已经被越来越多地应用到各个行业管理当中
    2024年05月14日
    4 1 3
  • 基于python实现的消消乐记分小游戏

    基于python实现的消消乐记分小游戏 1,文件结构规划 定义config,py文件存储相关参数:包括界面的宽高,整个方格行列个数,总格数等等
    2024年05月14日
    1 1 1
  • 基于SpringBoot框架的宠物领养系统

    这是一份采用Java语言编写的🔥🔥SpringBoot框架宠物领养应用的源代码项目,开发中融入了SpringBoot和Vue技术,支持使用Idea或Eclipse作为开发工具
    2024年05月23日
    4 1 1
  • 基于spring boot实现的成绩分析系统

    基于spring boot实现的成绩分析系统 一,开发目的 随着现代化社会的发展,每年都会有大量苦读寒窗的考生参加高考,但是由于竞争压力大,很多考生由于成绩不理想不能报考自己心仪的高等院校
    2024年05月14日
    4 1 1
  • 基于JAVA的房屋中介管理系统

    基于JAVA的房屋中介管理系统 摘 要 随着住房制度改革不断深化和居民收入水平的提高,住房成为新的消费热点,大部分城市房屋销售价格上涨明显,随之而来国家出台了多项针对房地产行业的调空政策
    2024年05月14日
    2 1 1

发表回复

登录后才能评论