4

我想使用 scikit-learn 管道的第一步来生成一个玩具数据集,以评估我的分析性能。我想出的一个简单易用的示例解决方案如下所示:

import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.base import TransformerMixin
from sklearn import cluster

class FeatureGenerator(TransformerMixin):

    def __init__(self, num_features=None):
        self.num_features = num_features

    def fit(self, X, y=None, **fit_params):
        return self

    def transform(self, X, **transform_params):
        return np.array(
            range(self.num_features*self.num_features)
        ).reshape(self.num_features,
                  self.num_features)

    def get_params(self, deep=True):
        return {"num_features": self.num_features}

    def set_params(self, **parameters):
        self.num_features = parameters["num_features"]
        return self

例如,这个正在运行的转换器可以这样调用:

pipeline = Pipeline([
    ('pick_features', FeatureGenerator(100)),
    ('kmeans', cluster.KMeans())
])

pipeline = pipeline.fit(None)
classes = pipeline.predict(None)
print classes

一旦我尝试在此管道上进行网格搜索,这对我来说就变得很棘手:

parameter_sets = {
    'pick_features__num_features' : [10,20,30],
    'kmeans__n_clusters' : [2,3,4]
}

pipeline = Pipeline([
    ('pick_features', FeatureGenerator()),
    ('kmeans', cluster.KMeans())
])

g_search_estimator = GridSearchCV(pipeline, parameter_sets)

g_search_estimator.fit(None,None)

网格搜索期望样本和标签作为输入,并且不如管道那么健壮,它不会抱怨None作为输入参数:

TypeError: Expected sequence or array-like, got <type 'NoneType'>

这是有道理的,因为网格搜索需要将数据集划分为不同的 cv 分区。


除了上面的例子,我还有很多参数,可以在数据集生成步骤中调整。因此,我需要一个解决方案来将此步骤包含在我的参数选择交叉验证中。

问题:有没有办法从第一个转换器内部设置 GridSearch的Xs 和s ?y或者一个解决方案会是什么样子,它使用多个不同的数据集(最好是并行的)调用 GridSearch?或者有没有人尝试过定制GridSearchCV或者可以指出一些关于这个的阅读材料?

4

1 回答 1

0

您的代码非常干净,因此很高兴为您提供这个快速而肮脏的解决方案:

g_search_estimator.fit([1., 1., 1.],[1., 0., 0.])
g_search_estimator.best_params_

输出:

[tons of int64 to float64 conversion warnings]
{'kmeans__n_clusters': 4, 'pick_features__num_features': 10}

请注意,您需要 3 个样本,因为您正在进行(默认)3 折交叉验证。

您得到的错误是由于对象执行的检查而发生的GridSearchCV,因此它发生在您的变压器有机会做任何事情之前。所以我会对你的第一个问题说“不”:

有没有办法从第一个变压器内部设置 GridSearch 的 Xs 和 ys?

编辑:
我意识到这是不必要的混乱,以下三行是等效的: g_search_estimator.fit([1., 1., 1.], [1., 0., 0.]) g_search_estimator.fit([1., 1., 1.], 无) g_search_estimator.fit([1., 1., 1.])

很抱歉匆忙将 random ys 扔在那里。

关于网格搜索如何计算不同网格点的分数的一些解释:当您传递scoring=NoneGridSearchCV构造函数时(这是默认设置,这就是您在这里所拥有的),它会向估计器询问分数函数。如果有这样的功能,它用于评分。因为KMeans默认得分函数本质上与到聚类中心的距离之和相反。
这是一个无监督的指标,所以y这里没有必要。

总结一下,您将始终能够:

从第一个变压器内部设置 GridSearch 的 X

只需将输入“转换”X为完全不相关的东西,没有人会抱怨它。不过,您确实需要一些输入random_X
现在,如果您想使用有监督的指标(我从您的问题中有这种感觉),您还需要指定y
一个简单的场景是你有一个固定的y向量,你想尝试几个X。然后你可以这样做:

g_search_estimator.fit(random_X, y, scoring=my_scoring_function)

它应该运行良好。如果你想搜索它的不同值y可能会有点棘手。

于 2015-07-27T20:42:10.133 回答