我有以下问题:我的数据框看起来像这样:
ID Date Value
1 2016-06-12 2
1 2016-06-13 2.5
1 2016-06-16 4
2 2016-06-12 3
2 2016-06-15 1.5
如您所见,我的数据中缺少天数。所以我更想要这样的东西:
ID Date Value
1 2016-06-12 2
1 2016-06-13 2.5
1 2016-06-14 NaN
1 2016-06-15 NaN
1 2016-06-16 4
2 2016-06-12 3
2 2016-06-13 NaN
2 2016-06-14 NaN
2 2016-06-15 1.5
为了解决这个问题,我做了以下事情:
df_new = df.groupby('ID').apply(lambda x: x.set_index('Date').resample('1D').first())
此解决方案有效,但处理大型数据集大约需要半小时。因此,我想知道是否有更好的解决方案?