我正在尝试不同的参数组合来确定实际上哪种参数组合能给我最好的结果。根据下面显示的代码,我已经尝试了 8 种不同的组合,但我想尝试其他没有 tf-idf 的组合。
所以我的问题是我应该怎么做parameters
才能让python知道在8个组合之后,现在我们继续在没有tf-idf(tf__use_idf
)的情况下继续进行,这样我们就可以有另一个额外的4个组合(仅基于binary
and stop_word
)即,总共12个组合。
pipeline = Pipeline([
('vect', CountVectorizer()),
('tf', TfidfTransformer()),
('clf', SGDClassifier(loss='log', penalty='l2', max_iter=20, verbose=1)),
])
parameters = {
'vect__stop_words': ('english', None),
'vect__binary': (True, False),
'tf__use_idf': (True, False),
}
grid_search = GridSearchCV(pipeline, parameters, cv=5, n_jobs=-1, verbose=1)
grid_search.fit(train.x, train.y)
best_parameters = grid_search.best_params_