12

我有一个包含两个键列的 Pandas 数据框,我想确保这些键的笛卡尔积存在于表中(因为我必须制作一个包含所有组合的二维图)。我很难想出一个相当简短和惯用的方法来做到这一点。

例如,我从这张表开始,给出了水果和蔬菜的组合,以及它们的味道:

   combo   fruit      veg
0  tasty   apple   carrot
1  yucky  banana   carrot
2  tasty  banana  lettuce
3  yucky   lemon  lettuce

我想最终得到这张表,其中出现了所有可能的组合:

    fruit      veg    combo
0   apple   carrot    tasty
1   apple  lettuce  UNKNOWN
2  banana   carrot    yucky
3  banana  lettuce    tasty
4   lemon   carrot  UNKNOWN
5   lemon  lettuce    yucky

这是我发现的最好的方法:

import pandas as pd

# Initial data
df=pd.DataFrame(dict(fruit=['apple','banana','banana','lemon'],
                     veg=['carrot','carrot','lettuce','lettuce'],
                     combo=['tasty','yucky','tasty','yucky']))

# Solution starts here
veg=df.groupby('veg').size().reset_index()
fruit=df.groupby('fruit').size().reset_index()
fruit[0] = veg[0] = 0    #use this dummy column for the join to work!
cartesian = pd.merge(fruit, veg, how='outer', on=0)
del cartesian[0]
all_combos = pd.merge(cartesian, df, how='left')
all_combos[ pd.isnull(all_combos.combo) ] = 'UNKNOWN'

我想必须有一种更简单且不易出错的方法来做到这一点......有什么建议吗?

如果有人能告诉我如何在有和没有包含fruitandveg列的多索引的情况下执行此操作,我将特别感激,因为我真的对如何使用索引执行此操作感到困惑。根据我的 SQL 经验,我认为这些正是索引所针对的情况。

4

1 回答 1

13

在这个答案之后的某个时间,我添加cartesian_product了 pandas,不久之后MultiIndex.from_product又被添加了(按照另一个问题中的建议)。这使得以下更有效的简化成为可能:

In [21]: p = pd.MultiIndex.from_product(df1.index.levels, names=df1.index.names)

In [22]: df1.reindex(p, fill_value='UNKNOWN')
Out[22]:
                  combo
fruit  veg
apple  carrot     tasty
       lettuce  UNKNOWN
banana carrot     yucky
       lettuce    tasty
lemon  carrot   UNKNOWN
       lettuce    yucky

较旧的答案如下:


如果您使用水果和蔬菜作为索引,那么您可以使用itertools.product* 通过以下方式创建MultiIndexto reindex

In [10]: from itertools import product

In [11]: df
Out[11]:
   combo   fruit      veg
0  tasty   apple   carrot
1  yucky  banana   carrot
2  tasty  banana  lettuce
3  yucky   lemon  lettuce

棘手的部分是获取所有可能的水果/蔬菜的正确 MultiIndex:

In [12]: fruit_x_veg = list(product(np.unique(df['fruit']), np.unique(df['veg'])))

In [13]: fruit_x_veg = pd.MultiIndex.from_tuples(fruit_x_veg,
                                                 names=['fruit', 'veg'])

然后你可以通过这些重新索引:

In [14]: df1 = df.set_index(['fruit', 'veg'])

In [15]: df1
Out[15]:
                combo
fruit  veg
apple  carrot   tasty
banana carrot   yucky
       lettuce  tasty
lemon  lettuce  yucky

In [16]: df1.reindex(fruit_x_veg, fill_value='UNKNOWN')
Out[16]:
                  combo
fruit  veg
apple  carrot     tasty
       lettuce  UNKNOWN
banana carrot     yucky
       lettuce    tasty
lemon  carrot   UNKNOWN
       lettuce    yucky

* 如果itertools.product速度不够快,请考虑使用这个 numpy 实现

注意:此实现在 中进行了扩展pandas.tools.util.cartesian_product,现在支持更多 dtypes(并在 中使用MultiIndex.from_product)。

于 2013-06-08T00:51:36.370 回答