0

我在 pandas 数据框中有一个时间序列的返回,其日期索引和返回列标记为“TRI”,如下所示:

VALUE_DATE  TRI        
2007-06-26 -0.000727
2007-06-27  0.015004
2007-06-28  0.000758
2007-06-29 -0.006408
2007-07-02  0.013844
2007-07-03  0.003866

我正在尝试使用 pandasgroupby方法在不同的时间间隔内汇总累积回报。我创建了一个自定义方法:

def cumRets(z):
        return np.exp(np.log(1 + z).cumsum()) - 1

但我无法在apply通话中成功使用它。

作为参考,这组(按年份)按预期进行,尽管总和很简单:

returns.groupby(returns.index.year).sum()

输出:

VALUE_DATE  TRI        
2007       -0.046283
2008       -0.240282
2009        0.259417
2010        0.268445
2011        0.054842
2012        0.162453
2013        0.331585
2014        0.063425
2015       -0.009367
2016        0.242511
2017        0.132732
2018       -0.099919
2019        0.233057
2020       -0.002414

但是应用我的cumRets方法,我得到了所有行而不是汇总的年份总数。此调用在每个月的最后一天返回正确的值,但返回之前的每一行而不是仅按值指定的组:

returns.groupby(returns.index.year).apply(cumRets) 

输出:

VALUE_DATE  TRI
2019-12-26  0.250672
2019-12-27  0.247278
2019-12-30  0.246734
2019-12-31  0.248562
2020-01-02  0.000143
2020-01-03 -0.002414

所需的输出看起来像这样(删节):

VALUE_DATE  TRI        
...
...
2019        0.248562
2020       -0.002414

问题 1a是我如何在每月和每周的间隔中做同样的事情,其中​​所需的输出分别如下所示(仅格式,值是占位符):

输出,每月:

VALUE_DATE  TRI
...
...
    2019-12  0.066746
    2020-01 -0.002414

输出,每周:

VALUE_DATE  TRI
...
...
    2019-12-w3  0.013228
    2019-12-w4  0.022367
    2020-01-w1 -0.002414
4

1 回答 1

0

这是您可以尝试使用的一种方法resample

def cumRets(z):
        return z.add(1).prod().sub(1)


# yearly
df.resample('Y', kind='period').apply(cumRets)

# monthly
df.resample('M', kind='period').apply(cumRets)
于 2020-01-25T09:19:48.707 回答