3

我有一个数据文件,其中包含我从某人那里收到的用逗号分隔的字段。我必须系统地浏览每一列以了解通常的描述性统计数据:-Min -Max -Mean -25th percentile -50th percentile -75th percentile

或者如果是文本:-不同值的数量

但我还需要找到 - 空值或缺失值的数量 - 零的数量

有时,特征的奇异之处意味着某些东西,即包含信息。我可能需要与客户讨论我发现的怪事。或者,如果我要替换价值观,我必须确保我不会鲁莽地推倒一些东西。

所以我的问题是:python中是否有一个包可以为我找到这个而不需要我预先假设数据类型?如果它确实存在,熊猫会是它的好家吗?

我看到 pandas 可以很容易地替换值,但一开始我只是想看看。

4

1 回答 1

1

您可以使用以下describe方法:

In [1]: df = pd.DataFrame(randn(10, 3), columns=list('ABC'))

In [2]: df
Out[2]:
          A         B         C
0  1.389738 -0.205485 -0.775810
1 -1.166596 -0.898761 -1.805333
2 -1.016509 -0.816037  0.169265
3 -0.440860 -1.147164  1.558606
4  0.763012  1.068694 -0.711795
5  0.075961 -0.597715  0.699023
6  3.006095 -0.354879 -0.718440
7 -1.249588 -0.372235  1.611717
8  0.518770 -0.742766  1.956372
9  1.304080 -0.803262 -0.609970

In [3]: df.describe()
Out[3]:
               A          B          C
count  10.000000  10.000000  10.000000
mean    0.318410  -0.486961   0.137363
std     1.360633   0.616566   1.266616
min    -1.249588  -1.147164  -1.805333
25%    -0.872596  -0.812843  -0.716779
50%     0.297366  -0.670240  -0.220352
75%     1.168813  -0.359218   1.343710
max     3.006095   1.068694   1.956372

它有一个percentile_width参数,默认为 50。

于 2013-06-15T08:23:57.353 回答