19

我正在为 sklearn 中的 SVC 优化一些参数,这里最大的问题是必须等待 30 分钟才能尝试任何其他参数范围。更糟糕的是,我想在同一范围内尝试更多的 c 和 gamma 值(这样我可以创建更平滑的曲面图),但我知道这将花费越来越长的时间......当我今天运行它时我将 cache_size 从 200 更改为 600(不知道它做了什么),看看它是否有所作为。时间减少了大约一分钟。

这是我能帮忙的吗?还是我只需要处理很长时间?

clf = svm.SVC(kernel="rbf" , probability = True, cache_size = 600)

gamma_range = [1e-7,1e-6,1e-5,1e-4,1e-3,1e-2,1e-1,1e0,1e1]
c_range = [1e-3,1e-2,1e-1,1e0,1e1,1e2,1e3,1e4,1e5]
param_grid = dict(gamma = gamma_range, C = c_range)

grid = GridSearchCV(clf, param_grid, cv= 10, scoring="accuracy")
%time grid.fit(X_norm, y)

返回:

Wall time: 32min 59s

GridSearchCV(cv=10, error_score='raise',
   estimator=SVC(C=1.0, cache_size=600, class_weight=None, coef0=0.0, degree=3, gamma=0.0,
kernel='rbf', max_iter=-1, probability=True, random_state=None,
shrinking=True, tol=0.001, verbose=False),
   fit_params={}, iid=True, loss_func=None, n_jobs=1,
   param_grid={'C': [0.001, 0.01, 0.1, 1.0, 10.0, 100.0, 1000.0, 10000.0, 100000.0], 'gamma': [1e-07, 1e-06, 1e-05, 0.0001, 0.001, 0.01, 0.1, 1.0, 10.0]},
   pre_dispatch='2*n_jobs', refit=True, score_func=None,
   scoring='accuracy', verbose=0)
4

3 回答 3

28

一些东西:

  1. 10 倍 CV 是多余的,会导致您为每个参数组拟合 10 个模型。通过切换到 5 倍或 3 倍 CV(即cv=3GridSearchCV调用中),您可以立即获得 2-3 倍的加速,而性能估计没有任何有意义的差异。
  2. 在每一轮尝试更少的参数选项。使用 9x9 组合,您在每次运行中尝试 81 种不同的组合。通常,您会在规模的一端或另一端发现更好的性能,因此可能从 3-4 个选项的粗略网格开始,然后在您开始识别对您的数据更感兴趣的区域时更精细。3x3 选项意味着与您现在所做的相比,速度提高了 9 倍。
  3. njobs您可以通过在调用中设置为 2+来获得微不足道的加速,GridSearchCV这样您就可以一次运行多个模型。根据数据的大小,您可能无法将其增加得太高,并且您不会看到将其增加到超过您正在运行的核心数量的改进,但您可能可以通过这种方式减少一些时间.
于 2016-02-26T16:04:41.870 回答
8

您也可以在 SVC 估计器中设置probability=False,以避免在内部应用昂贵的 Platt 校准。(如果能够运行 predict_proba 至关重要,请使用 执行 GridSearchCv refit=False,并在根据模型在测试集上的质量方面选择最佳参数集后,只需在整个训练集上重新训练具有概率 = True 的最佳估计器。)

另一个步骤是使用RandomizedSearchCV代替GridSearchCV,这将允许您在大致相同的时间(由n_iters参数控制)达到更好的模型质量。

并且,如前所述,使用n_jobs=-1

于 2017-11-01T14:17:19.997 回答
3

添加到其他答案(例如不使用 10 倍 CV 并且每轮使用更少的参数选项),还有其他方法可以加速模型。

并行化你的代码

Randy 提到可以使用 n_jobs 来并行化您的 taining(这取决于您计算机上的内核数量)。与下面代码的唯一区别是它使用n_jobs = -1自动为每个核心创建 1 个作业。因此,如果您有 4 个核心,它将尝试利用所有 4 个核心。下面的代码在 8 核计算机上运行。在我的电脑上用了 18.3 秒,n_jobs = -1而没有用时 2 分 17 秒。

import numpy as np
from sklearn import svm
from sklearn import datasets
from sklearn.model_selection import GridSearchCV
rng = np.random.RandomState(0)
X, y = datasets.make_classification(n_samples=1000, random_state=rng)


clf = svm.SVC(kernel="rbf" , probability = True, cache_size = 600)

gamma_range = [1e-7,1e-6,1e-5,1e-4,1e-3,1e-2,1e-1,1e0,1e1]
c_range = [1e-3,1e-2,1e-1,1e0,1e1,1e2,1e3,1e4,1e5]
param_grid = dict(gamma = gamma_range, C = c_range)

grid = GridSearchCV(clf, param_grid, cv= 10, scoring="accuracy", n_jobs = -1)
%time grid.fit(X, y)

请注意,如果您有权访问集群,则可以使用Dask 或 Ray分发您的训练。

不同的超参数优化技术

您的代码使用GridSearchCV,这是对估计器的指定参数值的详尽搜索。Scikit-Learn 还具有RandomizedSearchCV,它从具有指定分布的参数空间中对给定数量的候选者进行采样。对下面的代码示例使用随机搜索需要 3.35 秒。

import numpy as np

from sklearn import svm
from sklearn import datasets
from sklearn.model_selection import RandomizedSearchCV

rng = np.random.RandomState(0)
X, y = datasets.make_classification(n_samples=1000, random_state=rng)


clf = svm.SVC(kernel="rbf" , probability = True, cache_size = 600)

gamma_range = [1e-7,1e-6,1e-5,1e-4,1e-3,1e-2,1e-1,1e0,1e1]
c_range = [1e-3,1e-2,1e-1,1e0,1e1,1e2,1e3,1e4,1e5]
param_grid = dict(gamma = gamma_range, C = c_range)

grid = RandomizedSearchCV(clf, param_grid, cv= 10, scoring="accuracy", n_jobs = -1)
%time grid.fit(X, y)

减半

图片来自文档

最近(2021 年 1 月 scikit-learn 0.24.1),scikit-learn 添加了将网格搜索减半(HalvingGridSearchCV)和随机搜索减半( HalvingRandomSearch )的实验性超参数搜索估计器。这些技术可用于使用连续减半来搜索参数空间。上图显示所有超参数候选者在第一次迭代时使用少量资源进行评估,并且在每次后续迭代中选择更有希望的候选者并给予更多资源。您可以通过升级您的 scikit-learn ( pip install --upgrade scikit-learn)来使用它

于 2021-02-14T21:39:50.090 回答