我正在使用GridsearchCV
调整超参数,现在我想Normalization(StandardScaler())
在训练和验证步骤中做一个 min-max。但我认为我不能这样做。
问题是 :
- 如果我对整个训练集应用预处理步骤并将其发送到 GridsearchCV 进行 10 foldCV。这会导致我数据泄露,对吧?因为训练集将运行 10 折,这意味着训练 9 折和测试折 1 折。标准化应该只适用于训练集而不是验证集,对吗?
- 如果我使用 sklearn 的 Pipeline 它不会解决这个问题吗?因为它只运行一次并导致我再次泄漏数据。
- 有没有其他方法可以做到这一点并且仍然使用
GridsearchCV
来调整参数