跟我一起学点数据分析 -- 第三天：上手pandas（3）

在这里插入图片描述

文章目录

前文回顾

DataFrame 核心分析方法

清洗数据

python中用NaN(Not a Number)表示缺失数据

先搞一波数据来看看：

df = pd.DataFrame([[1,5,8],[2,np.nan,np.nan],[2,3,np.nan],[np.nan,np.nan,np.nan]])

 0 1 2
0  1.0  5.0  8.0
1  2.0  NaN  NaN
2  2.0  3.0  NaN
3  NaN  NaN  NaN

判断行列中是否有空数据

axis=0,代表列，axis=1代表行

查看行：df.isnull().any(axis=1)  
查看列：df.isnull().any(axis=0)

我弄了个按行判断的你们看一下：

0 False
1 True
2 True
3 True
dtype: bool

再看一下这个：

查看行：df.notnull().all(axis=1)
查看列：df.notnull().all(axis=0)

这个的话，只要有非空数据，就会被判断为True。

以上方法，都可以通过取反符号“~”来进行取反。

print(~df.isnull().any(axis = 1))

也可以通过loc()方法来进行取值。

比方说我要取出所有非空数据行，可以这样来进行实现：

df = df.loc[~df.isnull().any(axis = 1)]

 0 1 2
0  1.0  5.0  8.0

至于这个loc()方法，等会儿会说。

你也可以指定一列来进行空值的判断：

print(df[1].isnull())	# 判断一列的空值
print(df[1].isnull().value_counts())	# 对一列空值数量进行统计

清理行/列

相对来说有一个很直接的方法，直接将所有有空值的行、列进行清除：

df = pd.DataFrame([[1,5,8],[2,np.nan,np.nan],[2,3,np.nan],[np.nan,np.nan,np.nan]])

df = df.dropna()

print(df)

不附加任何的额外条件，只要你那一行里面存在空值，一行清理。

 0 1 2
0  1.0  5.0  8.0

如果是要按列清理呢？那就加上：

df = pd.DataFrame([[1,5,8],[2,np.nan,np.nan],[2,3,np.nan],[np.nan,np.nan,np.nan]])

df = df.dropna(axis=1)

print(df)

啊，很遗憾的告诉你，全部被清理了，一点不剩，因为每一列都有空值啊。。。

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]

好，那你现在跟我说，你觉得一行有那么一两个坏值其实是可以忍受的，那我怎么办？那我不还得给你办嘛：

# 只要有n个值是好的，就留下：
df = pd.DataFrame([[1,5,8],[np.nan,np.nan,np.nan],[2,3,np.nan],[np.nan,np.nan,np.nan]])

df = df.dropna(thresh=1)	# n

print(df)

 0 1 2
0  1.0  5.0  8.0
2  2.0  3.0  NaN

对吧。那这要不是你想要的，那我也没办法了。

还有什么，删除指定列？删除指定行？那试试看嘛，摸索一下。

df = pd.DataFrame([[1,5,8],[np.nan,np.nan,np.nan],[2,3,np.nan],[np.nan,np.nan,np.nan]])

df = df.drop(labels=1)

print(df)

 0 1 2
0  1.0  5.0  8.0
2  2.0  3.0  NaN
3  NaN  NaN  NaN

呐，我把那第一列删了。

神乎其技！！！

df = pd.DataFrame([[1,5,8],[np.nan,np.nan,np.nan],[2,3,np.nan],[np.nan,np.nan,np.nan]])

df = df.drop(columns=2)

print(df)

不好意思，上面删的是一行，这里才是删一列。。。

 0 1
0  1.0  5.0
1  NaN  NaN
2  2.0  3.0
3  NaN  NaN

哎，且看且珍惜吧，我不知道还能发多少了。

去重

如果你拿到一个数据集，非常大，你感觉里面有不少重复值，想要进行一波去重操作，怎么办？

还有一个drop_duplicates还没看。

换个数据集玩玩吧，一直用那个也累了。

df = pd.DataFrame({'Country':[1,1,2,12,34,23,45,34,23,12,2,3,4,1], 'Income':[1,1,2,10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000,3000,15666,1], 'Age':[1,1,2,50, 43, 34, 40, 25, 25, 45, 32,12,32,1], 'group':[1,1,2,'a','b','s','d','f','g','h','a','d','a',1]})

 	Country  Income  Age group
0 1 1 1 1
1 1 1 1 1
2 2 2 2 2
3 12   10000   50 a
4 34   10000   43 b
5 23 5000   34 s
6 45 5002   40 d
7 34   40000   25 f
8 23   50000   25 g
9 12 8000   45 h
10 2 5000   32 a
11 3 3000   12 d
12 4   15666   32 a
13 1 1 1 1

直接上手去重：

df.drop_duplicates(inplace=True)	#inplace=True 对原表进行修改

 Country  Income  Age group
0 1 1 1 1
2 2 2 2 2
3 12   10000   50 a
4 34   10000   43 b
5 23 5000   34 s
6 45 5002   40 d
7 34   40000   25 f
8 23   50000   25 g
9 12 8000   45 h
10 2 5000   32 a
11 3 3000   12 d
12 4   15666   32 a

少了一列啊。

大家看数据表中的索引，在我们使用drop_duplicates删除重复行时，重复行相对应的索引值也是被默认删除掉的，也就是说，索引值已经发生了变化。

那我们该如何解决这个问题呢？

df.drop_duplicates(inplace=True)
df = df.reset_index(drop=True)
print(df)

	Country  Income  Age group
0 1 1 1 1
1 2 2 2 2
2 12   10000   50 a
3 34   10000   43 b
4 23 5000   34 s
5 45 5002   40 d
6 34   40000   25 f
7 23   50000   25 g
8 12 8000   45 h
9 2 5000   32 a
10 3 3000   12 d
11 4   15666   32 a

如果要指定保留的重复行（默认是第一行），可以使用keep参数：一般没什么给你选的，要么就first，要么就last。

对指定的数据列进行去重：

df.drop_duplicates(inplace=True,subset = ['Age'],keep='last')

df = df.reset_index(drop=True)

print(df)

0 2 2 2 2
1 12   10000   50 a
2 34   10000   43 b
3 23 5000   34 s
4 45 5002   40 d
5 23   50000   25 g
6 12 8000   45 h
7 3 3000   12 d
8 4   15666   32 a
9 1 1 1 1

如果要多几行呢？
这操作叫什么？思考一下数据库中的主键。

df.drop_duplicates(inplace=True,subset = ['Age','group'],keep='last')

df = df.reset_index(drop=True)

print(df)

 Country  Income  Age group
0 2 2 2 2
1 12   10000   50 a
2 34   10000   43 b
3 23 5000   34 s
4 45 5002   40 d
5 34   40000   25 f
6 23   50000   25 g
7 12 8000   45 h
8 3 3000   12 d
9 4   15666   32 a
10 1 1 1 1

清理讲到这里，接下来我们来填充缺失值。

填充缺失值

现在让我们把数据集换回去。

然后填充一下缺失值：

df = pd.DataFrame([[1,5,np.nan],[2,np.nan,np.nan],[2,3,np.nan],[np.nan,np.nan,np.nan]])

df = df.fillna(value=0)	# 以指定值对缺失值进行填补

print(df)

 0 1 2
0  1.0  5.0  0.0
1  2.0  0.0  0.0
2  2.0  3.0  0.0
3  0.0  0.0  0.0

用某一列的平均值对某一列进行填充：

df = pd.DataFrame([[1,5,np.nan],[2,np.nan,np.nan],[2,3,np.nan],[np.nan,np.nan,np.nan]])

print(df)

df[1] = df.fillna(df[1].mean())

print(df)

 0 1   2
0  1.0  5.0 NaN
1  2.0  NaN NaN
2  2.0  3.0 NaN
3  NaN  NaN NaN 0 1 2
0  1.0  5.0  1.0
1  2.0  NaN  2.0
2  2.0  3.0  2.0
3  NaN  NaN  NaN

要不你试试第二列？

呐，不指定列试试看：

df = pd.DataFrame([[1,5,np.nan],[2,np.nan,np.nan],[2,3,np.nan],[np.nan,np.nan,np.nan]])

print(df)

df = df.fillna(df.mean())

print(df)

自上而下填充：

df = df.fillna(method='ffill')

print(df)

 0 1   2
0  1.0  5.0 NaN
1  2.0  NaN NaN
2  2.0  3.0 NaN
3  NaN  NaN NaN 0 1   2
0  1.0  5.0 NaN
1  2.0  5.0 NaN
2  2.0  3.0 NaN
3  2.0  3.0 NaN

有自上而下就有自下而上了：

df = df.fillna(method='bfill')

print(df)

 0 1   2
0  1.0  5.0 NaN
1  2.0  NaN NaN
2  2.0  3.0 NaN
3  NaN  NaN NaN 0 1   2
0  1.0  5.0 NaN
1  2.0  3.0 NaN
2  2.0  3.0 NaN
3  NaN  NaN NaN

再讲个小技巧，但是也是很让人烦恼的脏数据：空格

消除数据中的空格

# 创建含有空格的数据
dict1 = {"name": ["小红", "小明", "小张"], "age": [16, 17, 18], "city": ["北京  ", "杭州", "  上海  "]}
df2 = pd.DataFrame(dict1, columns=["name", "age", "city"])

print(df2)

# 清除空格
df2["city"] = df2["city"].map(str.strip)

print(df2)

 name  age city
0   小红   16 北京  
1   小明   17 杭州
2   小张   18 上海 name  age  city
0   小红   16   北京
1   小明   17   杭州
2   小张   18   上海

选择数据

pandas按列选择数据

就先来个最直观的方式，直接中括号取值。

# 创建含有空格的数据
dict1 = {"name": ["小红", "小明", "小张"], "age": [16, 17, 18], "city": ["北京  ", "杭州", "  上海  "]}
df2 = pd.DataFrame(dict1, columns=["name", "age", "city"])

# 清除空格
df2["city"] = df2["city"].map(str.strip)

print(df2['name'])

0 小红
1 小明
2 小张
Name: name, dtype: object

当然，你要是不知道列名称那怎么行？连列名都不知道还取个球。。。

print(df2.columns)

酱紫

Index(['name', 'age', 'city'], dtype='object')

一般都要选择多列数据的，对吧，对吧！

行，我们来选取一下多列数据：

print(df2[['name','age']])	# 看清楚，传进去的是一个列表，而不是两个字符串咯。

 name  age
0   小红   16
1   小明   17
2   小张   18

按照数据类型选择列

先来获取一下当前DataFrame的数据列数据类型情况吧：

name object
age int64
city object
dtype: object

获取一下object对象呗：

print(df2.select_dtypes(include='object'))

  	name  city
0   小红   北京
1   小明   杭州
2   小张   上海

那，如果说我要选择‘object’对象以外的对象呢？

print(df2.select_dtypes(exclude='object'))

filter方法选择列

它有三个常用参数，我们一个一个看，不过要注意：这三个参数并不能同时出现。

使用items选择多个列：

df2 = df2.filter(items=['name','age'])

print(df2)

就跟上面那个直接取值的是一样的。

  name  age
0   小红   16
1   小明   17
2   小张   18

使用like选择匹配的列：要求列名中含有。。。

df2 = df2.filter(like='a')

print(df2)

  	name  age
0   小红   16
1   小明   17
2   小张   18

使用正则表达式取列：

df2 = df2.filter(regex='[a-z]')

print(df2)

  	name  age  city
0   小红   16   北京
1   小明   17   杭州
2   小张   18   上海

pandas按行选择数据

先看个loc方法啊：

df2 = df2.loc[0:2]

print(df2)

  	name  age city
0   小红   16   北京
1   小明   17   杭州
2   小张   18   上海

你悟到了？

再来：

df2 = df2.loc[0:2,['name','age']]

  	name  age
0   小红   16
1   小明   17
2   小张   18

我就把结果放这儿，我就默默不说话。

df2 = df2.loc[(df2['age']>16) & (df2['age']<18)]
df2 = df2.loc[(df2['age']>16) | (df2['age']<18)]

这里我连结果都不想放了，发挥你们的想象力。

差不多了吧，我想想还有啥、、

lambda表达式，对、

df2 = df2.loc[lambda x:x.city == '北京']

呐，像这样。

如果不出意外，这篇就到这里啦，see you！！！
在这里插入图片描述

文章来源: lion-wu.blog.csdn.net，作者：看，未来，版权归原作者所有，如需转载，请联系作者。

原文链接：lion-wu.blog.csdn.net/article/details/111866076

（完）