假设我有一个这样的表:
Date Sales
09/01/2017 9000
09/02/2017 12000
09/03/2017 0
09/04/2017 11000
09/05/2017 14400
09/06/2017 0
09/07/2017 0
09/08/2017 21000
09/09/2017 15000
09/10/2017 23100
09/11/2017 0
09/12/2017 32000
09/13/2017 8000
表中的值是由我无法访问的 R 程序估计的(现在它是一个黑匣子)。由于我们的摄取/ETL 过程中的问题,现在有几天的 0 值趋于蔓延。我需要用 0 数据估计日期的值。
我们的方法是:
- 从缺失数据之前的日期到缺失数据之后的日期画一条线
- 从该行估计缺失日期的值
现在,如果在两个好日子之间只有一天缺少数据,那么直接的平均值就可以了。如果连续两天或更长时间缺少数据,则平均值将不起作用,因此我正在尝试制定一种方法来估计多个数据点的值。
这种方法可以在 R 中使用吗?我在 R 的总人数是 n00b,所以我不确定这是否可行。