我开始开发一些 LSTM 模型,现在有一些关于标准化的问题。
假设我有一些时间序列数据,大致介于 +500 和 -500 之间。将数据从 -1 缩放到 1 是否更现实,或者 0 到 1 是更好的方法,我对其进行了测试,0 到 1 似乎更快。有错误的方法吗?还是只是学起来比较慢?
第二个问题:我什么时候对数据进行规范化?我将数据分为训练数据和测试数据,我是否必须分别缩放/规范化这些数据?也许训练数据的范围仅在 +300 到 -200 之间,而测试数据的范围在 +600 到 -100 之间。我猜那不是很好。
但另一方面......如果我对整个数据帧进行缩放/规范化并在此之后对其进行拆分,则数据可以很好地用于训练和测试,但是如何处理真正的新传入数据?该模型被训练为缩放数据,所以我也必须缩放新数据,对吗?但是如果新数据是 1000 呢?归一化会将其变成大于 1 的值,因为它的数字比之前的所有数字都大。
长话短说,我什么时候对数据进行规范化以及全新的数据会发生什么?
我希望我能弄清楚我的问题是什么:D
非常感谢!