我一直了解到标准化或归一化应该只适用于训练集,然后用于转换测试集。所以我要做的是:
scaler = StandardScaler()
scaler.fit_transform(X_train)
scaler.transform(X_test)
现在,如果我要在新数据上使用这个模型,我可以保存“缩放器”并将其加载到任何新脚本中。
尽管理解这对 K-fold CV 是如何工作的,但我遇到了麻烦。在每次折叠时重新安装和转换缩放器是最佳实践吗?我可以理解这在构建模型时是如何工作的,但是如果我以后想使用这个模型怎么办。我应该保存哪个缩放器?
此外,我想将其扩展到时间序列数据。我了解 k-fold 如何用于时间序列,但我又如何将它与 CV 结合起来?在这种情况下,我建议保存最后一个缩放器,因为这将适合数据的 4/5(如果 k=5),使其适合最新(最近)的数据。那是正确的方法吗?