pandas.describe()
函数生成总结数据集的描述性统计数据,不包括 NaN 值。但是这里的排除是否意味着总计数(即变量的行)是变化的还是固定的?
例如,我mean
通过使用describe()
具有缺失值的 df 来计算 :
varA
1
1
1
1
NaN
这里的平均值是 4/5 还是 4/4?
它如何应用于其他结果describe
?例如,标准差、四分位数?
谢谢!
pandas.describe()
函数生成总结数据集的描述性统计数据,不包括 NaN 值。但是这里的排除是否意味着总计数(即变量的行)是变化的还是固定的?
例如,我mean
通过使用describe()
具有缺失值的 df 来计算 :
varA
1
1
1
1
NaN
这里的平均值是 4/5 还是 4/4?
它如何应用于其他结果describe
?例如,标准差、四分位数?
谢谢!
正如 ayhan 所指出的,在当前的 0.21 版本中,NaN 值被排除在 pandas.DataFrame.describe() 提供的所有汇总统计数据之外。
使用 NaN:
data_with_nan = list(range(20)) + [np.NaN]*20
df = pd.DataFrame(data=data_with_nan, columns=['col1'])
df.describe()
col1 计数 20.00000 平均 9.50000 标准 5.91608 最小 0.00000 25% 4.75000 50% 9.50000 75% 14.25000 最大 19.00000
没有:
data_without_nan = list(range(20))
df = pd.DataFrame(data=data_without_nan, columns=['col1'])
df.describe()
col1 计数 20.00000 平均 9.50000 标准 5.91608 最小 0.00000 25% 4.75000 50% 9.50000 75% 14.25000 最大 19.00000