3

我正在使用时间序列温度预测进行研究Artificial Neural Networks,并且大多数参考文献在使用Min-Max Normalization technique. 训练和测试数据集都进行了标准化。输入值是特定日期的温度、露点、降水量、压力和风速值。

在测试集中我只有一个样本的情况下(比如我只有今天的天气属性来预测明天的温度),我该如何标准化这些值,因为每个属性都有相同的最小值和最大值?

PS 我已经给我使用的研究的作者发了电子邮件,但他们都没有回复,所以我想我会在这里寻求帮助:)

4

2 回答 2

2

标准化以相同的方式在训练集和测试集上执行,因此您计算训练集的“边界”,并将其仅应用于测试集(您不应使用测试数据来计算这些边界,因为您应该假设在创建模型的那一刻,您不知道测试数据)。

您似乎在这里错过了机器学习的核心思想。您无法在一个样本上训练预测模型。样本数量是指您收集的一组观测值的大小,而不是提供给模型的数据量(因此,当您根据今天预测明天的温度时,这并不意味着您有一个样本,您需要有很多来自历史的样本,以便训练任何模型,特别是神经网络)。

因此,标准化问题在这里并不重要 - 因为您只需对整个历史集执行此操作,或者如果您知道每个属性可以实现的值的确切边界(例如 - 您正在测量温度摄氏度,所以它应该落入 [-20,40] 区间或更小的区间,如果你生活在世界的“较软”部分)。

于 2013-10-20T11:13:16.013 回答
1

标准化样本,就好像它在训练或测试数据集中一样。他们是你训练的范围,对吧?

通常,将有限/部分数据放入您可以处理/已训练处理的上下文中,将是从中获得有意义或经过验证的输出的唯一方法。

当然,您不应该完全局限于一个样本......因为您应该完全能够保留(和使用)前几天样本的历史记录。

于 2013-10-20T10:10:56.643 回答