0

我是时间序列机器学习的新手,可能有一个微不足道的问题。

我想预测特定地区的温度。我可以使用一周前 6 天的每小时数据点来训练模型,然后在最后一天评估其性能。因此,训练集将有 144 个数据点 (6*24),而测试集将有 24 个数据点 (24*1)。同样,我可以为区域 BZ 训练一个新模型并评估它们的每一个表现。我的问题是,您能否为跨多个不同区域的预测训练一个单一模型?所以区域标签当然应该是一个输入,因为这会影响温度的演变。

你能训练一个模型来预测多个轨迹,而不仅仅是一个吗?此外,什么可能是评估其性能的好指标?我打算使用平均绝对误差,但也许相关性更好?

4

1 回答 1

1

是的,您可以使用来自不同区域的多个系列数据进行训练,您提出的问题是深度学习的最终目标,方法是创建一个模型来做所有事情,正确预测每个区域等等。但是,如果你想泛化你的模型,你通常需要一个非常大的模型,我说的是 100M++ 参数,并且为了训练这些数据,你还需要大量的数据,可能是 TB 或 PB,所以你还需要一个超级强大的计算机来训练诸如 GOOGLE 数据中心之类的东西。谈到您的下一个问题,即度量标准,您可以只使用简单的 RMS 误差或平均绝对误差就可以正常工作。

这就是你需要关注的训练数据,没有超级模型可以把垃圾变成黄金,同样的事情是垃圾中的垃圾。你需要一个非常好的数据集,可以代表你试图解决的整个环境。例如,您想创建模型来预测如果您锤击玻璃会破裂,因此您可能有每种玻璃的 10 个数据,并且当您锤击它时所有这些数据都会破裂。所以,你训练模型,它每次都预测破裂,然后你尝试用防弹玻璃预测它并没有破裂,所以你的模型是错误的。因此,您需要不同类型玻璃的完整数据,然后您的模型可能会正确预测它。然后将其与您的 144 个数据点进行比较,我很确定它不适用于您的情况。

因此,我会说是的,您可以构建适合所有人的模型,但要付出巨大的代价。

于 2020-04-28T15:54:34.393 回答