本文最后更新于:2020年8月20日 凌晨
1. 数据载入及观察
在数据处理中,第一步通常都需要导入数据,并进行对数据的初步预览
- 导入库 导入所需数据库:import numpy as np; import pandas as pd
- 载入数据 pd.read_csv(‘filename’), csv为文件格式,可替换为其他格式:tsv;xlsx
- 逐块读取 有时数据库过大,为了节约内存需要分批次读取:pd.read_csv(‘filename’, chunksize=int)
- 修改column索引名称 pd.read_csv(‘names=[‘a’,‘b’,…],index_col=‘乘客ID’,header=0)
- 初步观察 前(n+1)个数据:head(n),后(n+1)个数据tail(n), 判断数据是否为空isnull()
- 保存数据 to_csv(‘filename’)
2. pandas基础
- 数据类型 pandas中有两个数据类型DataFrame, Series; Series比较适合一个属性对应一个数据, DataFrame则适用于一个实例具有多种属性,很符合数据挖掘所需要的数据模式
- 查看DataFrame数据的每列的项 根据数据的列索引可以很容易实现 data[‘Column_name’]
- 将多余的列的删除 del data[‘Column_name’]
- 将某些列暂时隐藏 data.drop([‘Columb_name’],axis=1)
若想完全删除 data.drop([‘Columb_name’],axis=1, inplace = True) - 显示满足某条件的数据
criteria = data[‘Column_name’]> x
此时criteria所含元素数据类型皆为bool
显示满足条件的数据(bool=True): Desired = data[criteria]
但此时index为old index, 若想得到此数据集某一行的值,需要重新设置index: Desird.reset_index(drop=True); drop=True将old index隐藏
\6. 显示数据集中某行某列的值 data.loc[[index_x,index_y, index_z…],[’Column_x‘,‘Columb_name_y’…]]
也可以都用索引值 函数:iloc
midage.iloc[[100,105,108],[2,3,4]]
3. 探索性数据分析
- 对数据值进行排序 一组数据DataFrame.sort_values(by=‘column_name’, ascending=False)
默认 ascending = True 升序, False 降序
两组数据排序(先对第一个排序)
DataFrame.sort_values(by=[‘column_name1’,‘column_name2’], ascending=False) - 索引排序 行索引升序排序:DataFrame.sort_index()
列索引升序排序 DataFrame.sort_index(axis = 1) - 算术计算两个DataFrame运算后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN
- 查看DataFrame数据信息
函数:DataFrame.describe()
输出:
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!