0

pandas.describe()函数生成总结数据集的描述性统计数据,不包括 NaN 值。但是这里的排除是否意味着总计数(即变量的行)是变化的还是固定的?

例如,我mean通过使用describe()具有缺失值的 df 来计算 :

varA
 1
 1
 1
 1
 NaN

这里的平均值是 4/5 还是 4/4?

它如何应用于其他结果describe?例如,标准差、四分位数?

谢谢!

4

1 回答 1

1

正如 ayhan 所指出的,在当前的 0.21 版本中,NaN 值被排除在 pandas.DataFrame.describe() 提供的所有汇总统计数据之外。

使用 NaN:

data_with_nan = list(range(20)) + [np.NaN]*20
df = pd.DataFrame(data=data_with_nan, columns=['col1'])
df.describe()
           col1
计数 20.00000
平均 9.50000
标准 5.91608
最小 0.00000
25% 4.75000
50% 9.50000
75% 14.25000
最大 19.00000

没有:

data_without_nan = list(range(20))
df = pd.DataFrame(data=data_without_nan, columns=['col1'])
df.describe()
           col1
计数 20.00000
平均 9.50000
标准 5.91608
最小 0.00000
25% 4.75000
50% 9.50000
75% 14.25000
最大 19.00000
于 2017-12-07T21:34:59.247 回答