python数据分析

python数据分析(4)——数据预处理(上) 数据预处理的主要内容包括数据清洗,数据集成,数据变换和数据规约, 1 数据清洗 数据清洗主要是删除原始数据集中的无关数据

本文包含相关资料包-----> 点击直达获取<-------

python数据分析(4)——数据预处理(上)

数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。

1 数据清洗

数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。

1.1 缺失值处理

方法主要分为删除记录、数据插补和不处理,其中常用的数据插补方法如下。

这里主要介绍拉格朗日插值法和牛顿插值法。其他的插值方法还有Hermite插值、分段插值和样条插值。

P(x)是牛顿插值逼近函数,R(x)是误差函数。

3)将缺失的函数值对应的点x代入插值多项式得到缺失值的近似值f(x).

牛顿插值法也是多项式插值,但采用了另一种构造插值多项式的方法,与拉格朗日插值相比,具有承袭型和易于变动节点的特点。从本质上来说,两者给出的结果是一样的(相同次数、相同系数的多项式),只不过表示的形式不同。因此,在Python的Scipy库中,只提供了拉格朗日插值法的函数(因为实现上比较容易),如果需要牛顿插值法,则需要自行编写函数。

例子是catering_sale.xls

```python

拉格朗日插值代码

import pandas as pd #导入数据分析库Pandas from scipy.interpolate import lagrange #导入拉格朗日插值函数

inputfile = 'catering_sale.xls' #销量数据路径 outputfile = 'sales.xls' #输出数据路径

data = pd.read_excel(inputfile) #读入数据 data[u'销量'][(data[u'销量'] < 400) | (data[u'销量'] > 5000)] = None #过滤异常值,将其变为空值

自定义列向量插值函数

s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5

def ployinterp_column(s, n, k=5): y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数 y = y[y.notnull()] #剔除空值 return lagrange(y.index, list(y))(n) #插值并返回插值结果

逐个元素判断是否需要插值

for i in data.columns: for j in range(len(data)): if (data[i].isnull())[j]: #如果为空即插值。 data[i][j] = ployinterp_column(data[i], j)

data.to_excel(outputfile) #输出结果,写入文件 ```

1.2 异常值处理

我们一般将异常值视为缺失值进行插补。

python中判断每个元素是否空值/非空值

D.isnull/notnull()

2. 数据集成

2.1 实体识别

实体识别是指从不同数据源识别出现实世界的实体,它的任务是统一不同源数据的矛盾之处。

2.1.1 同名异义

数据源中同样是属性ID,不一定是同一实体。

2.1.2 异名同义

不同数据源中不同名字的数据项表示是同一实体。

2.1.3 单位不统一

描述同一个实体分别用的是国际单位和中国传统的计量单位。

检测和解决这些冲突就是实体识别的任务。

2.2 冗余属性识别

  • 同一属性多次出现
  • 同一属性命名不一致导致重复

有些冗余属性可以用相关分析检测。

python去除数据中的重复元素

D.unique()

np.unique(D)

参考文献

  • 零售业大数据下载与分析系统的设计与实现(西安电子科技大学·吴霜)
  • 基于数据挖掘的学生数据剖析系统研究(哈尔滨师范大学·李晓楠)
  • 制造业数据交互式分析平台的设计与实现(西安电子科技大学·杨妍)
  • 生物农药智能推荐系统的设计与实现(电子科技大学·彭亚飞)
  • 电子商务网站的数据分析系统研究与开发(北方工业大学·韩杰)
  • 标准化报表的数据分析在电信财务收入系统中的应用(电子科技大学·金鑫)
  • 数据挖掘技术在大型企业物流平台的应用研究(成都理工大学·沈哲)
  • 股票数据库管理系统的设计与实现(电子科技大学·卢火)
  • 连锁超市数据分析系统的开发与实现(首都经济贸易大学·刘亚云)
  • 基于移动平台股票资讯搜索与预测系统研究(哈尔滨理工大学·滕文达)
  • 生物农药智能推荐系统的设计与实现(电子科技大学·彭亚飞)
  • 股票数据库管理系统的设计与实现(电子科技大学·卢火)
  • 基于云计算的用户网络行为挖掘分析系统的研究与设计(湖北大学·皮健夫)
  • 标准化报表的数据分析在电信财务收入系统中的应用(电子科技大学·金鑫)
  • 主题网络爬虫的研究与设计(南京理工大学·朱良峰)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码项目助手 ,原文地址:https://bishedaima.com/yuanma/35390.html

相关推荐

  • 基于SSM实现的酒店管理系统

    基于SSM实现的酒店管理系统 一,选题意义 随着计算机网络的飞速发发展,在酒店行业中计算机的应用越来越重要,采用最新的计算机网络和管理系统,将成为提高酒店管效率
    2024年05月14日
    9 1 3
  • 文章发布系统(jsp)

    Article-Publishing-System 随着计算机技术的迅速发展,网络正以一种前所未有的冲击力影响着人类的生产和生活,网络的快速发展,颠覆了传统的信息传播方式
    2024年05月14日
    200 1 27
  • 基于JSP和Sql Server实现的美食网

    基于JSP和Sql Server实现的美食网 摘 要 本论文阐述了整个美食网的功能及实现,实现了从菜品管理,名店加盟,到后台管理实现,留言处理,再到系统管理
    2024年05月14日
    34 1 6
  • 基于javaweb+fullcalender.js的排班管理系统源代码

    研究背景: 随着社会的发展和科技的进步,排班管理系统在各行各业中起到越来越重要的作用,尤其是在人员繁多,工作时间复杂多变的场景下,采用自动化的排班系统可以大大提高工作效率和管理水平
    2024年05月07日
    7 1 3
  • 个人健康Web应用设计

    个人健康Web应用设计 引言 编制目的 本文档详细完成对“知康”——个人健康Web应用的体系结构设计和模块的详细设计,达到指导后续软件构造的目的
    2024年05月14日
    3 1 2
  • 基于Python Flask框架和Mysql实现的二手物品交易平台

    基于Python Flask框架和Mysql实现的二手物品交易平台 1,需求分析 1,1 系统目标 二手物品发布平台是一个专为校内同学提供二手物品交易平台的系统
    2024年05月14日
    3 1 1
  • 基于SSM框架的快递管理系统源码

    这是一个🔥🔥基于SSM框架的快递管理系统源码🔥🔥的项目源码,开发语言Java,开发环境Idea/Eclipse,这个 快递管理系统开发技术栈为SSM项目,可以作为毕业设计课程设计作业使用SSM框架(springmvc+spring+mybatis)实现一个JavaWeb快递管理系统
    2024年05月23日
    21 1 5
  • 基于JAVA EE的失物招领系统

    基于JAVA EE的失物招领系统 摘 要 随着社会,经济和科学技术的不断进步发展,快节奏的生活方式让学生在校园生活中频繁出现丢失物品的状况,使学生遭受了经济和精神上的伤害
    2024年05月14日
    2 1 1
  • 基于SSM框架的B/S微博系统的设计与实现

    基于SSM框架的B/S微博系统的设计与实现 第一章 绪 论 时至今日,网络对于现代人来说,早已成为人类科技发展进步的桥梁,而通过网络衍生出的一系列产品也不断的冲击着人们的日常生活
    2024年05月14日
    17 1 3
  • java+servlet+mysql教务管理系统设计与实现,选课管理系统

    教务管理系统在高校中扮演着重要角色,促进了教育信息化和管理效率的提升,然而,传统教务管理系统存在着一些局限性,如用户体验不佳,功能单一等,本研究旨在设计并实现一款基于Java
    2024年05月07日
    4 1 1

发表回复

登录后才能评论