16

很多时候,我有一个大数据框df来保存基础数据,并且需要创建更多的列来保存由基础数据列计算的衍生数据。

我可以在 Pandas 中这样做:

df['derivative_col1'] = df['basic_col1'] + df['basic_col2']
df['derivative_col2'] = df['basic_col1'] * df['basic_col2']
....
df['derivative_coln'] = func(list_of_basic_cols)

等。Pandas 将一次性计算并分配所有衍生列的内存。

我现在想要的是有一个惰性求值机制,将衍生列的计算和内存分配推迟到实际需要的时刻。将lazy_eval_columns 定义为:

df['derivative_col1'] = pandas.lazy_eval(df['basic_col1'] + df['basic_col2'])
df['derivative_col2'] = pandas.lazy_eval(df['basic_col1'] * df['basic_col2'])

这将像 Python 'yield' 生成器一样节省时间/内存,因为如果我发出df['derivative_col2']命令只会触发特定的计算和内存分配。

lazy_eval()那么在 Pandas 中该怎么做呢?欢迎任何提示/想法/参考。

4

2 回答 2

13

从 0.13 开始(很快发布),你可以做这样的事情。这是使用生成器来评估动态公式。通过 eval 进行内联分配将是 0.13 中的附加功能,请参见此处

In [19]: df = DataFrame(randn(5, 2), columns=['a', 'b'])

In [20]: df
Out[20]: 
          a         b
0 -1.949107 -0.763762
1 -0.382173 -0.970349
2  0.202116  0.094344
3 -1.225579 -0.447545
4  1.739508 -0.400829

In [21]: formulas = [ ('c','a+b'), ('d', 'a*c')]

创建一个使用eval;计算公式的生成器 分配结果,然后产生结果。

In [22]: def lazy(x, formulas):
   ....:     for col, f in formulas:
   ....:         x[col] = x.eval(f)
   ....:         yield x
   ....:         

在行动

In [23]: gen = lazy(df,formulas)

In [24]: gen.next()
Out[24]: 
          a         b         c
0 -1.949107 -0.763762 -2.712869
1 -0.382173 -0.970349 -1.352522
2  0.202116  0.094344  0.296459
3 -1.225579 -0.447545 -1.673123
4  1.739508 -0.400829  1.338679

In [25]: gen.next()
Out[25]: 
          a         b         c         d
0 -1.949107 -0.763762 -2.712869  5.287670
1 -0.382173 -0.970349 -1.352522  0.516897
2  0.202116  0.094344  0.296459  0.059919
3 -1.225579 -0.447545 -1.673123  2.050545
4  1.739508 -0.400829  1.338679  2.328644

因此,它的用户确定了评估的顺序(而不是按需)。理论上numba会支持这一点,因此 pandas 可能会支持它作为后端eval(目前使用 numexpr 进行即时评估)。

我的2c。

惰性评估很好,但可以通过使用 python 自己的延续/生成功能轻松实现,因此将其构建到 pandas 中,虽然可能,但非常棘手,并且需要一个非常好的用例才能普遍有用。

于 2013-10-26T20:39:47.547 回答
7

您可以子类DataFrame化,并将列添加为属性。例如,

import pandas as pd

class LazyFrame(pd.DataFrame):
    @property
    def derivative_col1(self):
        self['derivative_col1'] = result = self['basic_col1'] + self['basic_col2']
        return result

x = LazyFrame({'basic_col1':[1,2,3],
               'basic_col2':[4,5,6]})
print(x)
#    basic_col1  basic_col2
# 0           1           4
# 1           2           5
# 2           3           6

访问属性(通过x.derivative_col1,下面)调用derivative_col1LazyFrame 中定义的函数。此函数计算结果并将派生列添加到 LazyFrame 实例:

print(x.derivative_col1)
# 0    5
# 1    7
# 2    9

print(x)
#    basic_col1  basic_col2  derivative_col1
# 0           1           4                5
# 1           2           5                7
# 2           3           6                9

请注意,如果您修改基本列:

x['basic_col1'] *= 10

派生列不会自动更新:

print(x['derivative_col1'])
# 0    5
# 1    7
# 2    9

但是,如果您访问该属性,则会重新计算这些值:

print(x.derivative_col1)
# 0    14
# 1    25
# 2    36

print(x)
#    basic_col1  basic_col2  derivative_col1
# 0          10           4               14
# 1          20           5               25
# 2          30           6               36
于 2014-02-05T11:35:15.660 回答