9

我正在用熊猫制作一些交叉表:

a = np.array(['foo', 'foo', 'foo', 'bar', 'bar', 'foo', 'foo'], dtype=object)
b = np.array(['one', 'one', 'two', 'one', 'two', 'two', 'two'], dtype=object)
c = np.array(['dull', 'dull', 'dull', 'dull', 'dull', 'shiny', 'shiny'], dtype=object)

pd.crosstab(a, [b, c], rownames=['a'], colnames=['b', 'c'])

b     one   two       
c    dull  dull  shiny
a                     
bar     1     1      0
foo     2     1      2

但我真正想要的是以下内容:

b     one        two       
c    dull  shiny dull  shiny
a                     
bar     1     0    1      0
foo     2     0    1      2

我通过添加新列并将级别设置为新的 MultiIndex 找到了解决方法,但这似乎很困难......

有没有办法将 MultiIndex 传递给交叉表函数来预定义输出列?

4

2 回答 2

7

crosstab 函数有一个名为 dropna 的参数,默认设置为 True。此参数定义是否应显示空列(例如单亮列)。

我试着这样调用函数:

pd.crosstab(a, [b, c], rownames=['a'], colnames=['b', 'c'], dropna = False)

这就是我得到的:

b     one          two       
c    dull  shiny  dull  shiny
a                            
bar     1      0     1      0
foo     2      0     1      2

希望这仍然有帮助。

于 2014-01-14T10:18:33.170 回答
5

我不认为有办法做到这一点,并crosstab调用pivot_table源代码,它似乎也没有提供这个。我在这里提出了它作为一个问题。

一个hacky解决方法(可能与您已经使用的相同也可能不同......):

from itertools import product
ct = pd.crosstab(a, [b, c], rownames=['a'], colnames=['b', 'c'])
a_x_b = list(product(np.unique(b), np.unique(c)))
a_x_b = pd.MultiIndex.from_tuples(a_x_b)

In [15]: ct.reindex_axis(a_x_b, axis=1).fillna(0)
Out[15]:
      one          two
     dull  shiny  dull  shiny
a
bar     1      0     1      0
foo     2      0     1      2

如果product太慢,这里是它的一个 numpy 实现

于 2013-06-08T20:31:38.993 回答