scikit-learn - gridsearchCV - 每个参数组合的随机数据

Question

我正在使用 gridsearchCV 来确定模型超参数：

pipe = Pipeline(steps=[(self.FE, FE_algorithm), (self.CA, Class_algorithm)])
param_grid = {**FE_grid, **CA_grid} 

scorer = make_scorer(f1_score, average='macro')
       
search = GridSearchCV(pipe, param_grid, cv=ShuffleSplit(test_size=0.20, n_splits=5,random_state=0), n_jobs=-1,
                              verbose=3, scoring=scorer)

search.fit(self.data_input, self.data_output)

但是，我相信我遇到了一些过度拟合的问题：结果

我想对每个参数组合下的数据进行洗牌，有什么办法吗？目前，通过 k-fold 交叉验证，正在为每个参数组合k-fold评估相同的验证数据集，因此过度拟合正在成为一个问题。

score 0 · Accepted Answer

不，没有。搜索将数据拆分一次，并为折叠和参数组合 ( source ) 的每个组合创建一个任务。

无论如何，每个参数组合的混洗可能是不可取的：然后选择可能只是选择“最简单”的拆分而不是“最佳”参数。如果您认为您对验证折叠过度拟合，请考虑使用

更少的参数选项
更多折叠或重复拆分*
自定义评估的scoring可调用对象
更保守的模型

*我最喜欢这些，虽然计算成本可能太高

scikit-learn - gridsearchCV - 每个参数组合的随机数据

1 回答 1

Related

Reference