python数据分析

python数据分析(10)——挖掘建模(5)离群点检测 1, 离群点的类型 2, 检测方法 3, 代码 ```python - - coding: utf-8 - - 使用K-Means算法聚类消费行为特征数据 import numpy as np import pandas as pd 参数初始化 inputfile = 'consumption_data

本文包含相关资料包-----> 点击直达获取<-------

python数据分析(10)——挖掘建模(5)离群点检测

1. 离群点的类型

2. 检测方法

3. 代码

```python

- - coding: utf-8 - -

使用K-Means算法聚类消费行为特征数据

import numpy as np import pandas as pd

参数初始化

inputfile = 'consumption_data.xls' #销量及其他属性数据 k = 3 #聚类的类别 threshold = 2 #离散点阈值 iteration = 500 #聚类最大循环次数 data = pd.read_excel(inputfile, index_col = 'Id') #读取数据 data_zs = 1.0*(data - data.mean())/data.std() #数据标准化

from sklearn.cluster import KMeans model = KMeans(n_clusters = k, n_jobs = 4, max_iter = iteration) #分为k类,并发数4 model.fit(data_zs) #开始聚类

标准化数据及其类别

r = pd.concat([data_zs, pd.Series(model.labels_, index = data.index)], axis = 1) #每个样本对应的类别 r.columns = list(data.columns) + [u'聚类类别'] #重命名表头

norm = [] for i in range(k): #逐一处理 norm_tmp = r[['R', 'F', 'M']][r[u'聚类类别'] == i]-model.cluster_centers_[i] norm_tmp = norm_tmp.apply(np.linalg.norm, axis = 1) #求出绝对距离 norm.append(norm_tmp/norm_tmp.median()) #求相对距离并添加

norm = pd.concat(norm) #合并

import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号 norm[norm <= threshold].plot(style = 'go') #正常点

discrete_points = norm[norm > threshold] #离群点 discrete_points.plot(style = 'ro')

for i in range(len(discrete_points)): #离群点做标记 id = discrete_points.index[i] n = discrete_points.iloc[i] plt.annotate('(%s, %0.2f)'%(id, n), xy = (id, n), xytext = (id, n))

plt.xlabel(u'编号') plt.ylabel(u'相对距离') plt.show() ```

参考文献

  • 基于股票数据流和投资者情绪的股价预测系统的设计与实现(华南理工大学·陈泽铭)
  • 基于redis的分布式自动化爬虫的设计与实现(华中科技大学·曾胜)
  • 音视频数据获取与同源性分析关键技术研究(电子科技大学·范清宇)
  • 基于云计算的用户网络行为挖掘分析系统的研究与设计(湖北大学·皮健夫)
  • 基于业务插件化的电商大数据采集系统(浙江工业大学·李天琦)
  • 基于股票数据流和投资者情绪的股价预测系统的设计与实现(华南理工大学·陈泽铭)
  • 基于业务插件化的电商大数据采集系统(浙江工业大学·李天琦)
  • 制造业数据交互式分析平台的设计与实现(西安电子科技大学·杨妍)
  • 基于业务插件化的电商大数据采集系统(浙江工业大学·李天琦)
  • 基于业务插件化的电商大数据采集系统(浙江工业大学·李天琦)
  • 运营商网络监测数据分析管理系统设计与实现(西安电子科技大学·成天旸)
  • 基于商品名称的电商平台商品自动分类的研究与实现(西南交通大学·黄超)
  • 数据分析流程编排系统设计与实现(大连理工大学·闫欣)
  • 基于商品名称的电商平台商品自动分类的研究与实现(西南交通大学·黄超)
  • 生物农药智能推荐系统的设计与实现(电子科技大学·彭亚飞)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码向导 ,原文地址:https://bishedaima.com/yuanma/35401.html

相关推荐

  • 基于JAVA的干部档案管理系统

    基于JAVA的干部档案管理系统 摘 要 当今,随着网络和信息技术的发展,各行各业都采用高效率的软件生产,办公,交流,管理,二十一世纪以来,随着互联网的快速发展
    2024年05月14日
    4 1 2
  • JSP课设_学生成绩管理系统

    目录 1 需求分析 1,1 功能性需求分析 实现一个基于 Web 的学生成绩管理系统,以我们学校为例,可以记录学生在校时的各科成绩,并具备基本的分析查询功能
    2024年05月14日
    125 1 23
  • 基于SpringBoot+MyBatis+阿里云OSS实现素材分享网

    素材分享网 这是一个多用户的资源共享平台,是一个专为文件共享而设计的新概念网盘系统,这是一个综合性非常强,灵活度非常高的素材网站,注册成为用户之后可以上传自己所喜欢的素材供他人浏览和高速下载
    2024年05月14日
    4 1 1
  • 基于JSP实现的网上点餐系统

    基于JSP实现的网上点餐系统 1 软件项目开发模式 螺旋开发模式 适合于项目前期部分需求不确定的情况, 对于每一个模块一个个开发:分析
    2024年05月14日
    21 1 2
  • 基于Python实现多项式拟合正弦函数

    1, 实验目的 掌握最小二乘法求解(无惩罚项的损失函数),掌握加惩罚项(2 范数)的损失函数优化,梯度下降法,共轭梯度法,理解过拟合,克服过拟合的方法(如加惩罚项
    2024年05月14日
    18 1 4
  • 基于spring boot实现的成绩分析系统

    基于spring boot实现的成绩分析系统 一,开发目的 随着现代化社会的发展,每年都会有大量苦读寒窗的考生参加高考,但是由于竞争压力大,很多考生由于成绩不理想不能报考自己心仪的高等院校
    2024年05月14日
    4 1 1
  • 基于Spring开发轻量级分布式 RPC 框架

    🏆 从零开始设计一个轻量级分布式 RPC 框架 💌 写在前面 本项目基于 Spring + Netty + Zookeeper + Protostuff 从零开始设计实现一个轻量级的分布式 RPC 框架
    2024年05月14日
    2 1 1
  • 人工智能实验 lab1之Python

    人工智能实验 lab1 实验报告 一,算法原理 TFIDF 是一种对文本进行编码的方法,在自然语言处理中我们需要将文本转换成向量矩阵的表示,才能计算文本之间的相关度或者做预测或者分类
    2024年05月14日
    3 1 2
  • 基于SpringBoot框架的学生宿舍信息的系统

    这是一套采用Java语言,基于SpringBoot框架构建的🌟🌟学生宿舍信息管理系统🌟🌟的源代码,开发工具为Idea或Eclipse,采用了现代化的SpringBoot结合Vue技术栈
    2024年05月23日
    3 1 1
  • 古典舞在线交流平台

    这是一个🔥🔥基于SpringBoot框架的古典舞在线交流平台设计与实现🔥🔥的项目源码,开发语言Java,框架使用的SpringBoot+vue技术,开发环境Idea/Eclipse
    2024年05月23日
    4 1 2

发表回复

登录后才能评论