我想使用 scikit-learn 管道的第一步来生成一个玩具数据集,以评估我的分析性能。我想出的一个简单易用的示例解决方案如下所示:
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.base import TransformerMixin
from sklearn import cluster
class FeatureGenerator(TransformerMixin):
def __init__(self, num_features=None):
self.num_features = num_features
def fit(self, X, y=None, **fit_params):
return self
def transform(self, X, **transform_params):
return np.array(
range(self.num_features*self.num_features)
).reshape(self.num_features,
self.num_features)
def get_params(self, deep=True):
return {"num_features": self.num_features}
def set_params(self, **parameters):
self.num_features = parameters["num_features"]
return self
例如,这个正在运行的转换器可以这样调用:
pipeline = Pipeline([
('pick_features', FeatureGenerator(100)),
('kmeans', cluster.KMeans())
])
pipeline = pipeline.fit(None)
classes = pipeline.predict(None)
print classes
一旦我尝试在此管道上进行网格搜索,这对我来说就变得很棘手:
parameter_sets = {
'pick_features__num_features' : [10,20,30],
'kmeans__n_clusters' : [2,3,4]
}
pipeline = Pipeline([
('pick_features', FeatureGenerator()),
('kmeans', cluster.KMeans())
])
g_search_estimator = GridSearchCV(pipeline, parameter_sets)
g_search_estimator.fit(None,None)
网格搜索期望样本和标签作为输入,并且不如管道那么健壮,它不会抱怨None
作为输入参数:
TypeError: Expected sequence or array-like, got <type 'NoneType'>
这是有道理的,因为网格搜索需要将数据集划分为不同的 cv 分区。
除了上面的例子,我还有很多参数,可以在数据集生成步骤中调整。因此,我需要一个解决方案来将此步骤包含在我的参数选择交叉验证中。
问题:有没有办法从第一个转换器内部设置 GridSearch的X
s 和s ?y
或者一个解决方案会是什么样子,它使用多个不同的数据集(最好是并行的)调用 GridSearch?或者有没有人尝试过定制GridSearchCV
或者可以指出一些关于这个的阅读材料?