python-2.7 - Pandas DataFrame - 在 whos dtype=='category' 列上聚合会导致性能下降

Question

我使用具有高内存使用率的大数据帧，我读到如果我更改重复值列上的 dtype，我可以节省大量内存。

我试过了，它确实将内存使用量降低了 25%，但后来我遇到了我无法理解的性能缓慢。

我在 dtype 'category' 列上进行分组聚合，在更改 dtype 之前大约需要 1 秒，更改之后大约需要 1 分钟。

此代码演示了 2 倍的性能下降：

import pandas as pd
import random

animals = ['Dog', 'Cat']
days = ['Sunday', 'Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday','Saturday']

columns_dict = {'animals': [],
                'days': []}

for i in range(1000000):
    columns_dict['animals'].append(animals[random.randint(0, len(animals)-1)])
    columns_dict['days'].append(days[random.randint(0, len(days)-1)])

# df without 'category' dtype
df = pd.DataFrame(columns_dict)

df.info(memory_usage='deep') # will result in memory usage of 95.5 MB

%timeit -n100 df.groupby('days').agg({'animals': 'first'})
# will result in: 100 loops, best of 3: 54.2 ms per loop

# df with 'category' dtype
df2 = df.copy()
df2['animals'] = df2['animals'].astype('category')

df2.info(memory_usage='deep') # will result in memory usage of 50.7 MB

%timeit -n100 df2.groupby('days').agg({'animals': 'first'})
# will result in: 100 loops, best of 3: 111 ms per loop

我试图理解的是这种缓慢的原因是什么，以及是否有办法克服它。

谢谢！

score 7 · Accepted Answer

我不确定这种减速来自何处，但一种解决方法是直接存储类别代码：

df3 = df.copy()
animals = pd.Categorical(df['animals'])
df3['animals'] = animals.codes
df3.groupby('days').agg({'animals': 'first'}).apply(lambda code: animals.categories[code])

这不是最干净的解决方案，因为它需要外部元数据，但它实现了您正在寻找的内存效率和计算速度。深入研究 Pandas 在内部所做的导致分类数据放缓的事情会很有趣。

编辑：我追查了为什么会发生这种情况......作为first()聚合的一部分，pandas调用np.asarray()了 column。在分类列的情况下，这最终会将列转换回非分类列，从而导致不必要的开销。解决这个问题将是对 pandas 包的有用贡献！

python-2.7 - Pandas DataFrame - 在 whos dtype=='category' 列上聚合会导致性能下降

1 回答 1

Related

Reference