本文最后更新于:2020年8月20日 凌晨

1. 数据载入及观察

在数据处理中,第一步通常都需要导入数据,并进行对数据的初步预览

  1. 导入库 导入所需数据库:import numpy as np; import pandas as pd
  2. 载入数据 pd.read_csv(‘filename’), csv为文件格式,可替换为其他格式:tsv;xlsx
  3. 逐块读取 有时数据库过大,为了节约内存需要分批次读取:pd.read_csv(‘filename’, chunksize=int)
  4. 修改column索引名称 pd.read_csv(‘names=[‘a’,‘b’,…],index_col=‘乘客ID’,header=0)
  5. 初步观察 前(n+1)个数据:head(n),后(n+1)个数据tail(n), 判断数据是否为空isnull()
  6. 保存数据 to_csv(‘filename’)

2. pandas基础

  1. 数据类型 pandas中有两个数据类型DataFrame, Series; Series比较适合一个属性对应一个数据, DataFrame则适用于一个实例具有多种属性,很符合数据挖掘所需要的数据模式
  2. 查看DataFrame数据的每列的项 根据数据的列索引可以很容易实现 data[‘Column_name’]
  3. 将多余的列的删除 del data[‘Column_name’]
  4. 将某些列暂时隐藏 data.drop([‘Columb_name’],axis=1)
    若想完全删除 data.drop([‘Columb_name’],axis=1, inplace = True)
  5. 显示满足某条件的数据
    criteria = data[‘Column_name’]> x
    此时criteria所含元素数据类型皆为bool
    显示满足条件的数据(bool=True): Desired = data[criteria]

但此时index为old index, 若想得到此数据集某一行的值,需要重新设置index: Desird.reset_index(drop=True); drop=True将old index隐藏
\6. 显示数据集中某行某列的值 data.loc[[index_x,index_y, index_z…],[’Column_x‘,‘Columb_name_y’…]]

也可以都用索引值 函数:iloc
midage.iloc[[100,105,108],[2,3,4]]

3. 探索性数据分析

  1. 对数据值进行排序 一组数据DataFrame.sort_values(by=‘column_name’, ascending=False)
    默认 ascending = True 升序, False 降序
    两组数据排序(先对第一个排序)
    DataFrame.sort_values(by=[‘column_name1’,‘column_name2’], ascending=False)
  2. 索引排序 行索引升序排序:DataFrame.sort_index()
    列索引升序排序 DataFrame.sort_index(axis = 1)
  3. 算术计算两个DataFrame运算后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN
  4. 查看DataFrame数据信息
    函数:DataFrame.describe()
    输出:
    count : 样本数据大小
    mean : 样本数据的平均值
    std : 样本数据的标准差
    min : 样本数据的最小值
    25% : 样本数据25%的时候的值
    50% : 样本数据50%的时候的值
    75% : 样本数据75%的时候的值
    max : 样本数据的最大值

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!

动手学数据分析-2 上一篇
算法-分治 下一篇