pandas - 熊猫填补日期空白并用函数覆盖

Question

我有一个包含 2 组的大数据框：分数和日期。熊猫工具是否有一种简单的可能性，可以用之前值的平均值（替代 ewma 等）来填补空白和缺失的分数。

首先，我通过分组覆盖分数，然后将修改后的分组df堆叠在一起。

 dfg = df.groupby(['g1','g2'])
 for name , group in dfg:
    print group
    break

 ix               g1           g2   score      day
 4                19           24    4.150513  2014-02-12
 5                19           24    6.986235  2014-02-13
 6                19           24    9.634231  2014-02-14
 7                19           24    1.818548  2014-02-15
 8                19           24    1.699897  2014-03-02
 9                19           24    2.128781  2014-03-25
 10               19           24    1.720297  2014-03-26
 14               19           24    2.079877  2014-03-30

score 1 · Accepted Answer

我从来没有这样做过，但是查看手册给了我以下作为起点的想法：

df = pd.DataFrame([['2011-01-01', '1'], ['2011-01-03', '2']], columns=['day', 'score']).set_index('day')
df.index = df.index.to_datetime()
rng = pd.date_range('1/1/2011', periods=12, freq='d')
df2 = pd.DataFrame(pd.DataFrame(columns=['day'], index=rng))

# now, for those that we actually have data, put it in:
df2['score'] = df['score']

那么最终结果：

               score
2011-01-01     1
2011-01-02   NaN
2011-01-03     2
2011-01-04   NaN
2011-01-05   NaN
2011-01-06   NaN
2011-01-07   NaN
2011-01-08   NaN
2011-01-09   NaN
2011-01-10   NaN
2011-01-11   NaN
2011-01-12   NaN

现在，您可以对文档NaN中描述的值应用插值方法。

pandas - 熊猫填补日期空白并用函数覆盖

1 回答 1

Related

Reference