基于python实现的上市公司新闻文本分析与分类预测

上市公司新闻文本分析与分类预测 1, 简介 上市公司新闻文本分析与分类预测的基本步骤如下: 从新浪财经,每经网,金融界,中国证券网,证券时报网上

本文包含相关资料包-----> 点击直达获取<-------

上市公司新闻文本分析与分类预测


1. 简介

上市公司新闻文本分析与分类预测的基本步骤如下:

  • 从新浪财经、每经网、金融界、中国证券网、证券时报网上,爬取上市公司(个股)的历史新闻文本数据(包括时间、网址、标题、正文)
  • 从Tushare上获取沪深股票日线数据(开、高、低、收、成交量和持仓量)和基本信息(包括股票代码、股票名称、所属行业、所属地区、PE值、总资产、流动资产、固定资产、留存资产等)
  • 对抓取的新闻文本按照,去停用词、加载新词、分词的顺序进行处理
  • 利用前两步中所获取的股票名称和分词后的结果,抽取出每条新闻里所包含的(0支、1支或多支)股票名称,并将所对应的所有股票代码,组合成与该条新闻相关的股票代码列表,并在历史数据表中增加一列相关股票代码数据
  • 从历史新闻数据库中抽取与某支股票相关的所有新闻文本,利用该支股票的日线数据(比如某一天发布的消息,在设定N天后如果价格上涨则认为是利好消息,反之则是利空消息)给每条新闻贴上“利好”和“利空”的标签,并存储到新的数据库中(或导出到CSV文件)
  • 实时抓取新闻数据,判断与该新闻相关的股票有哪些,利用上一步的结果,对与某支股票相关的所有历史新闻文本(已贴标签)进行文本分析(构建新的特征集),然后利用SVM(或随机森林)分类器对文本分析结果进行训练(如果已保存训练模型,可选择重新训练或直接加载模型),最后利用训练模型对实时抓取的新闻数据进行分类预测

开发环境 Python-v3(3.6)

  • gensim==3.2.0
  • jieba==0.39
  • scikit-learn==0.19.1
  • pandas==0.20.0
  • numpy==1.13.3+mkl
  • scipy==0.19.0
  • pymongo==3.6.0
  • beautifulsoup4==4.6.0
  • tushare==1.1.1
  • requests==2.18.4
  • gevent==1.2.1

2.文本处理( text_processing.py )

  • 文本处理包括去停用词处理、加载新词、中文分词、去掉出现次数少的分词
  • 生成字典和Bow向量,并基于Gensim转化模型(LSI、LDA、TF-IDF)转化Bow向量
  • 计算文本相似度
  • 打印词云

3. 文本挖掘( text_mining.py

  • 从新闻文本中抽取特定信息,并贴上新的文本标签方便往后训练模型
  • 从数据库中抽取与某支股票相关的所有新闻文本
  • 将贴好标签的历史新闻进行分类训练,利用训练好的模型对实时抓取的新闻文本进行分类预测

4. 新闻爬取

crawler_cnstock.py crawler_jrj.py crawler_nbd.py crawler_sina.py crawler_stcn.py

  • 分析网站结构,多线程(或协程)爬取上市公司历史新闻数据

5. Tushare数据提取( crawler_tushare.py

  • 获取沪深所有股票的基本信息,包括股票代码、股票名称、所属行业、所属地区等

6. 用法

  • 配好运行环境以及安装MongoDB,最好再安装一个MongoDB的可视化管理工具Studio 3T
  • 先运行 run_crawler_cnstock.py run_crawler_jrj.py run_crawler_nbd.py run_crawler_sina.py run_crawler_stcn.py 这5个py文件,而且可能因为对方服务器没有响应而重复多次运行这几个文件才能抓取大量的历史数据
  • 接着运行 run_crawler_tushare.py 从Tushare获取基本信息和股票价格
  • 最后运行 run_main.py 文件,其中有4个步骤,除了第1步初始化外,其他几步最好单独运行
  • 注意:所有程序都必须在文件所在目录下运行

参考文献

  • 基于微服务的新闻类网站爬虫与分类检索平台设计及实现(中国科学院大学(中国科学院大学人工智能学院)·陈本康)
  • 基于深度学习的新闻文本分类方法研究与应用(北京建筑大学·刘开峰)
  • 基于增量型聚类的新闻话题检测系统设计与实现(山东师范大学·郑茹月)
  • 基于股票数据流和投资者情绪的股价预测系统的设计与实现(华南理工大学·陈泽铭)
  • 结合财经文本情感分析的股票价格预测研究(国防科技大学·白欣怡)
  • 新闻事件识别系统的研究与实现(北京邮电大学·李昕)
  • 基于增量型聚类的新闻话题检测系统设计与实现(山东师范大学·郑茹月)
  • 金融信息实时发布系统的设计与实现(东北大学·伦健)
  • 基于微服务的新闻类网站爬虫与分类检索平台设计及实现(中国科学院大学(中国科学院大学人工智能学院)·陈本康)
  • 基于移动平台股票资讯搜索与预测系统研究(哈尔滨理工大学·滕文达)
  • 基于深度学习的新闻事件分析系统的研究与实现(北京邮电大学·俞书琪)
  • 基于爬虫的网络新闻订阅和跟踪系统的设计与实现(华中科技大学·严园)
  • 与股票关联的财经新闻文本分类分级研究(武汉大学·石静)
  • 基于情感分析和注意力机制的虚假新闻检测算法研究与应用(南昌大学·李思敏)
  • 文本综合处理平台的研究与实现(济南大学·王孟孟)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设助手 ,原文地址:https://bishedaima.com/yuanma/35707.html

相关推荐

  • 基于Python的中文自动分词实验

    中文自动分词实验 实验内容 使用任意分词方法进行分词 实验要求和目的 使用任意分词方法实现汉语自动分词; 给出至少 1000 个句子的分词结果(以附件形式); 计算出分词结果的正确率
    2024年05月14日
    3 1 1
  • JavaWeb实现足球队管理系统

    JavaWeb 毕业设计项目-足球队管理系统(一)系统结构图 + 用例图 系统功能结果图: 管理员(球队经理)用例图: 教练组用例图: 球员组用例图: JavaWeb 毕业设计项目-足球队管理系统(二)成品展示 + 业务介绍 1
    2024年05月14日
    4 1 2
  • 基于JSP和Oracle的网上招聘系统的设计与实现

    基于JSP和Oracle的网上招聘系统的设计与实现 摘 要 随着时代的发展,中国的互联网技术愈加成熟,已经有越来越多的社会群体开始学会使用互联网技术
    2024年05月14日
    11 1 1
  • 教学辅助平台

    这是一个🔥🔥基于SpringBoot框架的教学辅助平台设计与实现🔥🔥的项目源码,开发语言Java,框架使用的SpringBoot+vue技术,开发环境Idea/Eclipse
    2024年05月23日
    1 1 1
  • 基于java开发教室预约Web

    Class Int—教室资源管理系统 一,需求介绍 1,1 项目前景 近年来,随着高校不断的扩招,在校师生人数不断增加,各级高校都迫切需要提高工作质量和工作效率
    2024年05月14日
    1 1 1
  • Java+SSM学生公寓宿舍寝室管理系统

    这是一个🔥🔥SSM学生公寓宿舍寝室管理系统🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 学生公寓管理系统开发技术栈为SSM项目,可以作为毕业设计课程设计作业基于SSM框架与mysql技术
    2024年05月23日
    6 1 2
  • 基于springcloud实现的医院信息系统

    项目简介 HIS英文全称 hospital information system(医院信息系统),系统主要功能按照数据流量,流向及处理过程分为临床诊疗,药品管理
    2024年05月14日
    1 1 1
  • 城镇保障性住房管理系统

    这是一个🔥🔥基于SpringBoot框架的城镇保障性住房管理系统设计与实现🔥🔥的项目源码,开发语言Java,框架使用的SpringBoot+vue技术,开发环境Idea/Eclipse
    2024年05月23日
    2 1 1
  • 基于SSM框架的个人博客系统(源码+论文)

    这是一个🔥🔥基于SSM框架的个人博客系统🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 个人博客系统开发技术栈为SSM项目,可以作为毕业设计课程设计作业使用spring+springmvc+mybatis实现一个个人博客系统
    2024年05月23日
    10 1 3
  • 基于 JavaWeb 的学院党费缴费系统

    基于 JavaWeb 的学院党费缴费系统 第 1 章绪论 1,1 项目背景 当今互联网发展及其迅速,互联网的便利性已经遍及到各行各业,惠及到每一个人
    2024年05月14日
    29 1 3

发表回复

登录后才能评论