我有多个时间序列数据框,它们就像不同的资产。
问题是数据中有漏洞(其他资产上没有)。
问题:有哪些定性的方法来清理数据,以便我可以用接近现实的东西来填充缺少的行?
额外的信息:
我的第一个想法:
预测缺失的 LSTM(问题:我只能在没有孔的行序列上训练它 -> 偏差)
ARIMA(不知道,只是听说过)
之后和之前的值的平均值(-> 不切实际,这会错过异常值和尖峰)
什么是更好的方法?(放弃是没有选择的)
下面是一些示例数据:
(...我只是以手写为例,价格是垃圾,但只是为了将孔显示为 NaN 值。)
df1
Open High Low Close
Time
2014-10-10 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-13 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-14 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-15 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-16 00:00:00 1.12345 1.12345 1.12345 1.12345
... ... ... ... ...
2016-02-23 16:00:00 1.12345 1.12345 1.12345 1.12345
2016-02-23 17:00:00 1.12345 1.12345 1.12345 1.12345
2016-02-23 18:00:00 1.12345 1.12345 1.12345 1.12345
2016-02-23 19:00:00 NaN NaN NaN NaN
2016-02-23 20:00:00 1.12345 1.12345 1.12345 1.12345
df2
Open High Low Close
Time
2014-10-10 00:00:00 28391.12345 28391.12352 28391.12332 28391.12347
2014-10-13 00:00:00 28391.12348 28391.12358 28391.12340 28391.12350
2014-10-14 00:00:00 NaN NaN NaN NaN
2014-10-15 00:00:00 28391.12350 28391.12354 28391.12344 28391.12353
2014-10-16 00:00:00 28391.12350 28391.12354 28391.12344 28391.12353
... ... ... ... ...
2016-02-23 16:00:00 28391.30000 28391.30000 28391.10000 28391.10000
2016-02-23 17:00:00 28391.10000 28391.50000 28391.09000 28391.40000
2016-02-23 18:00:00 28391.12345 28391.12345 28391.12345 28391.12345
2016-02-23 19:00:00 28391.12345 28391.12345 28391.12345 28391.12345
2016-02-23 20:00:00 28391.12345 28391.12345 28391.12345 28391.12345