动手学数据分析-1

1. 数据载入及观察

在数据处理中，第一步通常都需要导入数据，并进行对数据的初步预览

导入库 导入所需数据库:import numpy as np; import pandas as pd
载入数据 pd.read_csv(‘filename’), csv为文件格式，可替换为其他格式：tsv;xlsx
逐块读取 有时数据库过大，为了节约内存需要分批次读取：pd.read_csv(‘filename’, chunksize=int)
修改column索引名称 pd.read_csv(‘names=[‘a’,‘b’,…],index_col=‘乘客ID’,header=0)
初步观察 前(n+1)个数据：head(n),后（n+1)个数据tail(n), 判断数据是否为空isnull()
保存数据 to_csv(‘filename’)

2. pandas基础

数据类型 pandas中有两个数据类型DataFrame, Series; Series比较适合一个属性对应一个数据， DataFrame则适用于一个实例具有多种属性，很符合数据挖掘所需要的数据模式
查看DataFrame数据的每列的项 根据数据的列索引可以很容易实现 data[‘Column_name’]
将多余的列的删除 del data[‘Column_name’]
将某些列暂时隐藏 data.drop([‘Columb_name’],axis=1)
若想完全删除 data.drop([‘Columb_name’]，axis=1, inplace = True)
显示满足某条件的数据
criteria = data[‘Column_name’]> x
此时criteria所含元素数据类型皆为bool
显示满足条件的数据(bool=True): Desired = data[criteria]

但此时index为old index, 若想得到此数据集某一行的值，需要重新设置index: Desird.reset_index(drop=True); drop=True将old index隐藏
\6. 显示数据集中某行某列的值 data.loc[[index_x,index_y, index_z…],[’Column_x‘,‘Columb_name_y’…]]

也可以都用索引值函数：iloc
midage.iloc[[100,105,108],[2,3,4]]

3. 探索性数据分析

对数据值进行排序 一组数据DataFrame.sort_values(by=‘column_name’, ascending=False)
默认 ascending = True 升序， False 降序
两组数据排序(先对第一个排序)
DataFrame.sort_values(by=[‘column_name1’,‘column_name2’], ascending=False)
索引排序 行索引升序排序：DataFrame.sort_index()
列索引升序排序 DataFrame.sort_index(axis = 1)
算术计算两个DataFrame运算后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN
查看DataFrame数据信息
函数：DataFrame.describe()
输出:
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值