python数据分析

python数据分析(4)——数据预处理(上) 数据预处理的主要内容包括数据清洗,数据集成,数据变换和数据规约, 1 数据清洗 数据清洗主要是删除原始数据集中的无关数据

本文包含相关资料包-----> 点击直达获取<-------

python数据分析(4)——数据预处理(上)

数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。

1 数据清洗

数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。

1.1 缺失值处理

方法主要分为删除记录、数据插补和不处理,其中常用的数据插补方法如下。

这里主要介绍拉格朗日插值法和牛顿插值法。其他的插值方法还有Hermite插值、分段插值和样条插值。

P(x)是牛顿插值逼近函数,R(x)是误差函数。

3)将缺失的函数值对应的点x代入插值多项式得到缺失值的近似值f(x).

牛顿插值法也是多项式插值,但采用了另一种构造插值多项式的方法,与拉格朗日插值相比,具有承袭型和易于变动节点的特点。从本质上来说,两者给出的结果是一样的(相同次数、相同系数的多项式),只不过表示的形式不同。因此,在Python的Scipy库中,只提供了拉格朗日插值法的函数(因为实现上比较容易),如果需要牛顿插值法,则需要自行编写函数。

例子是catering_sale.xls

```python

拉格朗日插值代码

import pandas as pd #导入数据分析库Pandas from scipy.interpolate import lagrange #导入拉格朗日插值函数

inputfile = 'catering_sale.xls' #销量数据路径 outputfile = 'sales.xls' #输出数据路径

data = pd.read_excel(inputfile) #读入数据 data[u'销量'][(data[u'销量'] < 400) | (data[u'销量'] > 5000)] = None #过滤异常值,将其变为空值

自定义列向量插值函数

s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5

def ployinterp_column(s, n, k=5): y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数 y = y[y.notnull()] #剔除空值 return lagrange(y.index, list(y))(n) #插值并返回插值结果

逐个元素判断是否需要插值

for i in data.columns: for j in range(len(data)): if (data[i].isnull())[j]: #如果为空即插值。 data[i][j] = ployinterp_column(data[i], j)

data.to_excel(outputfile) #输出结果,写入文件 ```

1.2 异常值处理

我们一般将异常值视为缺失值进行插补。

python中判断每个元素是否空值/非空值

D.isnull/notnull()

2. 数据集成

2.1 实体识别

实体识别是指从不同数据源识别出现实世界的实体,它的任务是统一不同源数据的矛盾之处。

2.1.1 同名异义

数据源中同样是属性ID,不一定是同一实体。

2.1.2 异名同义

不同数据源中不同名字的数据项表示是同一实体。

2.1.3 单位不统一

描述同一个实体分别用的是国际单位和中国传统的计量单位。

检测和解决这些冲突就是实体识别的任务。

2.2 冗余属性识别

  • 同一属性多次出现
  • 同一属性命名不一致导致重复

有些冗余属性可以用相关分析检测。

python去除数据中的重复元素

D.unique()

np.unique(D)

参考文献

  • 零售业大数据下载与分析系统的设计与实现(西安电子科技大学·吴霜)
  • 基于数据挖掘的学生数据剖析系统研究(哈尔滨师范大学·李晓楠)
  • 制造业数据交互式分析平台的设计与实现(西安电子科技大学·杨妍)
  • 生物农药智能推荐系统的设计与实现(电子科技大学·彭亚飞)
  • 电子商务网站的数据分析系统研究与开发(北方工业大学·韩杰)
  • 标准化报表的数据分析在电信财务收入系统中的应用(电子科技大学·金鑫)
  • 数据挖掘技术在大型企业物流平台的应用研究(成都理工大学·沈哲)
  • 股票数据库管理系统的设计与实现(电子科技大学·卢火)
  • 连锁超市数据分析系统的开发与实现(首都经济贸易大学·刘亚云)
  • 基于移动平台股票资讯搜索与预测系统研究(哈尔滨理工大学·滕文达)
  • 生物农药智能推荐系统的设计与实现(电子科技大学·彭亚飞)
  • 股票数据库管理系统的设计与实现(电子科技大学·卢火)
  • 基于云计算的用户网络行为挖掘分析系统的研究与设计(湖北大学·皮健夫)
  • 标准化报表的数据分析在电信财务收入系统中的应用(电子科技大学·金鑫)
  • 主题网络爬虫的研究与设计(南京理工大学·朱良峰)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://bishedaima.com/yuanma/35390.html

相关推荐

  • 基于Python的数据库实现

    基于Python的数据库实现 1,需求分析 1,1 概述 从底层做起,实现数据库的组织,存储,检索,更新和索引等功能, 1,2 基本功能 设计特定的数据结构
    2024年05月14日
    2 1 2
  • 中小型医院网站

    这是一个🔥🔥基于SpringBoot框架的中小型医院网站设计与实现🔥🔥的项目源码,开发语言Java,框架使用的SpringBoot+vue技术,开发环境Idea/Eclipse
    2024年05月23日
    3 1 1
  • 基于SpringBoot框架的宠物领养系统

    这是一份采用Java语言编写的🔥🔥SpringBoot框架宠物领养应用的源代码项目,开发中融入了SpringBoot和Vue技术,支持使用Idea或Eclipse作为开发工具
    2024年05月23日
    5 1 1
  • Java+SSH线上课程学习系统

    这是一个🔥🔥SSH线上课程学习系统🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 Java线上课程开发技术栈为SSH项目,可以作为毕业设计课程设计作业使用ssh框架
    2024年05月23日
    8 1 1
  • 基于python的信号集问题

    基于python的信号集问题 题目 借助计算机编程分别给出下图所示的两个信号集的功率效率(BER与Eb/N0的关系),并通过比较其功率效率解释编码负增益现象
    2024年05月14日
    1 1 1
  • 口红色号识别器之Python

    口红色号识别器 选题 程序名称: 口红色号识别器 选题: 基于图像处理
    2024年05月14日
    4 1 1
  • 基于SpringBoot框架的制造装备物联及生产管理ERP系统

    这是一套采用🔥🔥SpringBoot为核心的智能制造设备联网及生产管理ERP系统的源代码,主要编程语言为Java,并结合了SpringBoot和Vue技术进行构建,开发工具包括Idea或Eclipse
    2024年05月23日
    15 1 3
  • 基于Python实现简易C语言编译器

    参考文献 基于Python的非结构化数据检索系统的设计与实现(南京邮电大学·董海兰) 山西思软科技实训管理系统的设计与实现(大连理工大学·李勇兵) 基于C#的甜品店现金交易系统的设计与实现(电子科技大学·张晟) 基于Web系统的计算机编程语言书籍交流系统设计与开发(吉林大学·刘峰兵) 基于动易网的B/S结构学校网站设计与实现(吉林大学·於月红) 在线考试系统的设计与实现(山东大学·张莉) 基于ASP
    2024年05月14日
    2 1 1
  • 基于SpringBoot框架的星之语明星周边产品销售网站

    这是一套采用Java语言构建的🌟🌟SpringBoot为核心的星之语明星周边商品售卖网站源代码,该项目运用了SpringBoot和Vue框架,开发工具为Idea或Eclipse
    2024年05月23日
    4 1 1
  • 基于Java的寝室公共财产管理系统

    基于Java的寝室公共财产管理系统 摘 要 我们所学的《java面向对象》和我们以前所学的C++大同小异,整体上差不多却有各有各的特点,在学习了理论课程之后
    2024年05月14日
    1 1 1

发表回复

登录后才能评论