2

enter code here我正在做一个项目来分析和预测客户销售和收入的时间序列。为了准确度的目的,我想测试各种模型——即Holt 线性方法、Holt Winter 方法、ARIMA、季节性 ARIMA 和 ARIMAX(因为我还想考虑数据中的分类变量)。数据是每日形式的,因此我选择频率为 7。

startW <- as.numeric(strftime(head(revenue$date, 1), format = "%W"))
startD <- as.numeric(strftime(head(revenue$date, 1) + 1, format =" %w")) 
revenue <- ts(revenue$amount, start = c(startW, startD), frequency = 7)

然后我把它分成训练和测试,把上个月作为保留集。

我已经auto.arima()为 ARIMA 模型使用了函数,它给出了 ARIMA(0,0,0)(2,1,0)[7]。这意味着什么?残差图如下所示残差图 1

在此之后,我将假期添加为外生变量

encoded_regressors <- sparse.model.matrix(amount~holiday, data = train_set)
encoded_regressors <- (encoded_regressors[,-1])
model2 <- auto.arima(revenue.train, xreg = encoded_regressors)

我现在得到的模型是 ARIMA(0,0,1)(2,1,0)[7] ,这里是残差图残差图 2

对于这两种情况,如果我看到预测值和观察值的差异,则百分比差异平均在 3%-50% 之间。如何改进我的模型并了解 ARIMA 模型的输出?

谢谢!

4

2 回答 2

0

您似乎是auto.arima()forecast包装中使用的。你可以在这里找到很多关于在 R 中使用这个包和时间序列预测的好信息。对于您给出的输出,第一个括号中的 3 个值是指 ARIMA 模型中 p、d 和 q 的顺序。p 是自回归项,d 是差分阶数,q 是移动平均项。第二个括号中的 3 个值指的是季节性分量 P、D 和 Q,其中每一个分别指的是自回归、差分和移动平均项。括号中的数字 7 是指您选择的频率。

通常,要找到最佳 ARIMA 模型,您会查看 Akaike 信息准则 (AIC) 或贝叶斯信息准则 (BIC),并尝试将它们最小化。再次,查看链接以获取更多详细信息。

于 2019-03-20T07:23:38.320 回答
0

时间序列的 ACF 和 PACF 图如下 ACF 图 PACF 图

如果我的理解是正确的,ACF 建议 q = 7 而 PACF 建议 p = 7?

于 2019-03-20T09:21:02.903 回答