在pandas中,有哪些特征统计函数?
在Series和DataFrame上定义了许多统计函数,最常见的是sum()、mean()、median()、var()、std()、max()和min()。下面,我们选出身高和体重列来计算它们的均值和最大值:
In [45]: df_demo = df[['Height', 'Weight']]
df_demo.mean()
Out[45]: Height 163.218033
Weight 55.015873
dtype: float64
In [46]: df_demo.max()
Out[46]: Height 193.9
Weight 89.0
dtype: float64
此外,需要介绍的是quantile()、count()和idxmax()这3个函数,它们分别返回的是分位数、非缺失值个数和最大值对应的索引:
In [47]: df_demo.quantile(0.75)
Out[47]: Height 167.5
Weight 65.0
Name: 0.75, dtype: float64
In [48]: df_demo.idxmax()# idxmin()函数结果是最小值对应的索引
Out[48]: Height 193
Weight 2
dtype: int64
由于上述所有函数对每一个序列进行操作后返回的结果是标量(单个值),因此它们又被称为聚合函数,它们有一个公共参数axis,默认值为0,代表逐列聚合,如果设置为1则表示逐行聚合:
In [49]: df_demo.mean(axis=1).head() # 在这个数据集上体重和身高的均值没有意义
Out[49]: 0 102.45
1 118.25
2 138.95
3 41.00
4 124.00
dtype: float64