0

我有多个时间序列数据框,它们就像不同的资产。

问题是数据中有漏洞(其他资产上没有)。

问题:有哪些定性的方法来清理数据,以便我可以用接近现实的东西来填充缺少的行?

额外的信息:

我的第一个想法:

  1. 预测缺失的 LSTM(问题:我只能在没有孔的行序列上训练它 -> 偏差)

  2. ARIMA(不知道,只是听说过)

  3. 之后和之前的值的平均值(-> 不切实际,这会错过异常值和尖峰)

  4. 什么是更好的方法?(放弃是没有选择的)

下面是一些示例数据:

(...我只是以手写为例,价格是垃圾,但只是为了将孔显示为 NaN 值。)

df1
                         Open            High          Low        Close       
Time                                                          
2014-10-10 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-13 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-14 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-15 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-16 00:00:00      1.12345      1.12345      1.12345      1.12345
                      ...       ...  ...            ...            ...
2016-02-23 16:00:00      1.12345      1.12345      1.12345      1.12345
2016-02-23 17:00:00      1.12345      1.12345      1.12345      1.12345 
2016-02-23 18:00:00      1.12345      1.12345      1.12345      1.12345
2016-02-23 19:00:00          NaN          NaN          NaN          NaN
2016-02-23 20:00:00      1.12345      1.12345      1.12345      1.12345

df2
                         Open                    High              Low            Close       
Time                                                          
2014-10-10 00:00:00      28391.12345      28391.12352      28391.12332      28391.12347
2014-10-13 00:00:00      28391.12348      28391.12358      28391.12340      28391.12350
2014-10-14 00:00:00              NaN              NaN              NaN              NaN
2014-10-15 00:00:00      28391.12350      28391.12354      28391.12344      28391.12353
2014-10-16 00:00:00      28391.12350      28391.12354      28391.12344      28391.12353
                      ...       ...  ...            ...            ...
2016-02-23 16:00:00      28391.30000      28391.30000      28391.10000      28391.10000
2016-02-23 17:00:00      28391.10000      28391.50000      28391.09000      28391.40000
2016-02-23 18:00:00      28391.12345      28391.12345      28391.12345      28391.12345
2016-02-23 19:00:00      28391.12345      28391.12345      28391.12345      28391.12345
2016-02-23 20:00:00      28391.12345      28391.12345      28391.12345      28391.12345
4

1 回答 1

0

您在这里提出了 2 个问题:

1) 数据清理:您应该检查是否有缺失点日期的交易。即它可能是假期。除非使用相同的交易日历并具有相同的流动性,否则与其他资产核对可能不起作用。请记住,并非所有金融市场都在周一至周五交易。

2) 最佳模型:您需要进行一些研发并牢记基准,以找到适合您的模型。预测收盘价的好模型可能在预测成交量时表现不佳。

于 2020-06-07T08:01:56.627 回答