0

我正在尝试创建一个对时间序列数据重新采样的函数pandas。我希望可以选择根据我发送的数据类型来指定发生的聚合类型(即,对于某些数据,取每个 bin 的总和是合适的,而对于其他数据,则需要取平均值, ETC。)。例如像这样的数据:

import pandas as pd
import numpy as np

dr = pd.date_range('01-01-2020', '01-03-2020', freq='1H')
df = pd.DataFrame(np.random.rand(len(dr)), index=dr)

我可以有这样的功能:

def process(df, freq='3H', method='sum'):
    r = df.resample(freq)
    if method == 'sum':
        r = r.sum()
    elif method == 'mean':
        r = r.mean()
    #...
    #more options
    #...
    return r

对于少量的聚合方法,这很好,但如果我想从所有可能的选项中进行选择,这似乎很乏味。

我希望用来getattr实现类似这篇文章的内容(在“投入使用:泛化方法调用”下)。但是,我找不到这样做的方法:

def process2(df, freq='3H', method='sum'):
    r = df.resample(freq)
    foo = getattr(r, method)
    return r.foo()

#fails with:
#AttributeError: 'DatetimeIndexResampler' object has no attribute 'foo'

def process3(df, freq='3H', method='sum'):
    r = df.resample(freq)
    foo = getattr(r, method)
    return foo(r)

#fails with:
#TypeError: __init__() missing 1 required positional argument: 'obj'

我明白为什么process2失败(调用r.foo()查找 的方法foo()r而不是变量foo)。但我不认为我明白为什么会process3失败。

我知道另一种方法是将函数传递给参数method,然后将apply这些函数传递给r。我的倾向是这样效率会降低?而且它仍然不允许我直接访问内置的 Resample 方法。

有没有一种可行的、更简洁的方法来实现这一目标?谢谢!

4

1 回答 1

2

尝试.resample().apply(method)

但是除非您计划在函数内部进行更多计算,否则仅对这一行进行硬编码可能会更容易。

于 2020-08-12T23:46:07.863 回答