python - 使用 GridSearchCV 调整超参数

Question

我是机器学习的新手，我正在尝试在给定一个标记数据集的情况下预测一篇文章的主题，每个数据集都包含一篇文章中的所有单词。共有 11 个不同的主题，每篇文章只有一个主题。我已经建立了一个流程管道：

classifier = Pipeline([
    ('vectorizer', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', OneVsRestClassifier(XGBClassifier(objective="multi:softmax", num_class=11), n_jobs=-1)),
])

我正在尝试实现一个 GridsearchCV 来找到最好的超参数：

parameters = {'vectorizer__ngram_range': [(1, 1), (1, 2),(2,2)],
               'tfidf__use_idf': (True, False)}
gs_clf_svm = GridSearchCV(classifier, parameters, n_jobs=-1, cv=10, scoring='f1_micro')
gs_clf_svm = gs_clf_svm.fit(X, Y)

这很好用，但是，如何调整 XGBClassifier 的超参数？我试过使用符号：

parameters = {'clf__learning_rate': [0.1, 0.01, 0.001]}

它不起作用，因为 GridSearchCV 正在寻找 OneVsRestClassifier 的超参数。如何实际调整 XGBClassifier 的超参数？另外，您建议哪些超参数值得针对我的问题进行调整？

score 2 · Accepted Answer

照原样，管道learning_rate在 OneVsRestClassifier 中寻找一个参数，找不到一个（不足为奇，因为模块没有这样的参数），并引发错误。由于您实际上需要learning_rateXGBClassifier 的参数，因此您应该更深入，即：

parameters = {'clf__estimator__learning_rate': [0.1, 0.01, 0.001]}

python - 使用 GridSearchCV 调整超参数

1 回答 1

Related

Reference