我目前正在尝试使用 statsmodels ARIMA 库来实现直接和递归多步预测策略,它提出了一些问题。
递归多步预测策略将训练一步模型,预测下一个值,将预测值附加到输入到预测方法中的外生值的末尾并重复。这是我的递归实现:
def arima_forecast_recursive(history, horizon=1, config=None):
# make list so can add / remove elements
history = history.tolist()
model = ARIMA(history, order=config)
model_fit = model.fit(trend='nc', disp=0)
for i, x in enumerate(history):
yhat = model_fit.forecast(steps=1, exog=history[i:])
yhat.append(history)
return np.array(yhat)
def walk_forward_validation(dataframe, config=None):
n_train = 52 # Give a minimum of 2 forecasting periods to capture any seasonality
n_test = 26 # Test set should be the size of one forecasting horizon
n_records = len(dataframe)
tuple_list = []
for index, i in enumerate(range(n_train, n_records)):
# create the train-test split
train, test = dataframe[0:i], dataframe[i:i + n_test]
# Test set is less than forecasting horizon so stop here.
if len(test) < n_test:
break
yhat = arima_forecast_recursive(train, n_test, config)
results = smape3(test, yhat)
tuple_list.append(results)
return tuple_list
与执行直接策略类似,我只需将我的模型拟合到可用的训练数据上,并使用它来一次预测总的多步预测。我不确定如何使用 statsmodels 库来实现这一点。
我的尝试(产生结果)如下:
def walk_forward_validation(dataframe, config=None):
# This currently implements a direct forecasting strategy
n_train = 52 # Give a minimum of 2 forecasting periods to capture any seasonality
n_test = 26 # Test set should be the size of one forecasting horizon
n_records = len(dataframe)
tuple_list = []
for index, i in enumerate(range(n_train, n_records)):
# create the train-test split
train, test = dataframe[0:i], dataframe[i:i + n_test]
# Test set is less than forecasting horizon so stop here.
if len(test) < n_test:
break
yhat = arima_forecast_direct(train, n_test, config)
results = smape3(test, yhat)
tuple_list.append(results)
return tuple_list
def arima_forecast_direct(history, horizon=1, config=None):
model = ARIMA(history, order=config)
model_fit = model.fit(trend='nc', disp=0)
return model_fit.forecast(steps=horizon)[0]
让我特别困惑的是,该模型是否应该只适合所有预测一次或多次适合多步预测中的单个预测?摘自Souhaib Ben Taieb 的博士论文(第 35 页第 3 段),提出直接模型将估计 H 个模型,其中 H 是预测范围的长度,因此在我的示例中,预测范围为 26,应该估计 26 个模型而不仅仅是一个。如上所示,我当前的实现只适合一种模型。
我不明白的是,如果我在同一个训练数据上多次调用 ARIMA.fit() 方法,我将获得一个模型,我将获得一个与预期正常随机变化之外的任何不同的拟合?
我的最后一个问题是关于优化。使用诸如前向验证之类的方法给我带来了统计上非常显着的结果,但对于许多时间序列来说,它的计算成本非常高。上述两种实现都已使用 joblib 并行循环执行功能调用,这显着减少了我笔记本电脑上的运行时间。但是,我想知道对于上述实现是否可以做任何事情以使它们更加高效。当为约 2000 个单独的时间序列(所有序列总共约 500,000 个数据点)运行这些方法时,运行时间为 10 小时。我已经对代码进行了概要分析,并且大部分执行时间都花在了 statsmodels 库中,这很好,但是 walk_forward_validation() 方法的运行时和 ARIMA 之间存在差异。合身()。这是意料之中的,因为很明显 walk_forward_validation() 方法除了调用 fit 方法之外还做其他事情,但是如果可以更改其中的任何内容以加快执行时间,请告诉我。
这段代码的想法是找到每个时间序列的最佳 arima 顺序,因为单独研究 2000 个时间序列是不可行的,因此每个时间序列调用 walk_forward_validation() 方法 27 次。所以总共大约 27,000 次。因此,可以在此方法中找到的任何性能节省都会产生影响,无论它有多小。