0

我正在使用出色的fable软件包,并尝试使用 arima 和 ets 模型创建分层预测,并与 td、mo、bu 和 min 跟踪进行协调以比较并查看最佳方法。我的系列在系列后期有一些需要回归的效果,所以我正在尝试创建一个二元回归器来处理这个问题。我已经阅读关于使用new_data参数添加具有分层预测的回归量的链接 1 和链接 2,而不是我用于非分层预测的参数xreg。通过将数据拆分为训练集和测试集并将测试传递给new_data正如 Rob Hyndman 在链接 1 中所描述的那样。我在当前任务中遇到的问题是,需要建模的效果都在系列的后期,所以它们都在测试集中。

首先是我可重现的示例数据:

library(tidyverse)
library(forecast)
library(fable)
library(tsibble)
library(tsibbledata)
library(lubridate)

data <- aus_livestock %>%
  filter(State %in% c("Tasmania", "New South Wales", "Queensland"),
         as.Date(Month) > as.Date("2000-01-01")) %>%
  aggregate_key(State, Count=sum(Count)) %>%
  mutate(xreg=as.factor(if_else(as.Date(Month) > as.Date("2018-01-01") &
                                  as.Date(Month) < as.Date("2018-10-01"), 1, 0)))

我过去曾成功做过这样的事情:

train <- data %>%
  filter(as.Date(Month) < as.Date("2017-10-01"))

test <- data %>%
  filter(as.Date(Month) >= as.Date("2017-10-01"))

mod_data <- train %>%
  model(ets=ETS(Count),
        arima=ARIMA(Count ~ xreg)
        ) %>%
  reconcile(bu_ets=bottom_up(ets),
            td_ets=top_down(ets),
            mint_ets=min_trace(ets),
            bu_arima=bottom_up(arima),
            td_arima=top_down(arima),
            mint_arima=min_trace(arima)
            )

forc_data <- mod_data %>%
  forecast(new_data=test)

autoplot(forc_data,
         data,
         level=NULL)

但由于在这种情况下,回归量在训练集中全为零,因此预期会提供错误Provided exogenous regressors are rank deficient, removing regressors: xreg1。我认为我需要做的是将我拥有的所有数据提供给模型,而不是将数据拆分为训练和测试,但我不确定当new_data文件没有数据时如何使用 fable 预测该模型。我得到的最接近的是这样的:

dates <- sort(rep(seq(as.Date("2019-01-01"), as.Date("2020-12-01"), "months"), 3))

future_data <- tibble(
  Month=dates,
  State=rep(c("Tasmania", "New South Wales", "Queensland"), 24), 
  Count=0
) %>%
  mutate(Month=yearmonth(Month)) %>%
  as_tsibble(index=Month, key=State) %>%
  aggregate_key(State, Count=sum(Count)) %>%
  mutate(xreg=factor(0, levels=c(0, 1))) %>%
  select(-Count)

mod_data <- data %>%
  model(ets=ETS(Count),
        arima=ARIMA(Count ~ xreg)
        ) %>%
  reconcile(bu_ets=bottom_up(ets),
            td_ets=top_down(ets),
            mint_ets=min_trace(ets),
            bu_arima=bottom_up(arima),
            td_arima=top_down(arima),
            mint_arima=min_trace(arima)
            )

forc_data <- mod_data %>%
  forecast(new_data=future_data)

autoplot(forc_data,
         data,
         level=NULL)

奇怪的是,当我尝试运行预测片段时,这段代码会导致我的 R Studio 崩溃R session aborted R has encountered a fatal error。我认为这可能与代码无关,因为我实际上是让它在我的真实数据上工作,但预测看起来并不像我预期的那样。

因此,总而言之,我想知道fable当所有回归效应都需要在测试集期间发生时,如何使用外生回归量来预测分层序列。

提前感谢我能得到的任何帮助!

4

1 回答 1

0

我认为不可能只在测试集中做到这一点,因为这样模型在训练集中就没有什么可学的了。即你只能在训练过程中包含一个外生变量,如果它同时存在于训练和测试集中。

于 2022-01-06T13:01:09.367 回答