问题标签 [grid-search]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用特定验证数据进行网格搜索
我正在寻找一种方法来网格搜索 sklearn 中的超参数,而不使用 K 折验证。即,我希望我的网格在特定数据集(下例中的 X1,y1)上进行训练,并在特定的保留数据集(下例中的 X2,y2)上验证自己。
X1,y2 = 训练数据
X2,y2 = 验证数据
machine-learning - 用于 Scikit Learn 的 Keras Wrappers - AUC 记分器不工作
我正在尝试使用Keras Scikit Learn Wrapper以便更轻松地随机搜索参数。我在这里写了一个示例代码:
- 我生成一个人工数据集:
我正在moons
使用scikit learn
- 模型构建器定义:
我定义build_fn
了所需的功能:
- 参数网格定义:
然后我定义了一个参数网格:
- RandomizedSearchCV 阶段:
我定义RandomizedSearchCV
了对象并拟合了来自人工数据集的值:
我得到的(在控制台中运行此代码后)是:
scoring = "roc_auc"
当我使用accuracy
公制而不是使用此代码时,此代码可以正常工作。谁能解释我怎么了?有没有人有类似的问题?
python - AUC 的网格搜索查找参数
我试图找到我的 SVM 的参数,这给了我最好的 AUC。但我在 sklearn 中找不到 AUC 的任何评分函数。有人有想法吗?这是我的代码:
那我可以用来做什么???获得高 AUC 分数的最佳参数?
machine-learning - 在决策树中缩放数据改变了我的结果?
我知道决策树不会受到缩放数据的影响,但是当我在决策树中缩放数据时,它会给我带来不好的性能(召回率、精度和准确度不好)
但是当我不扩展所有性能指标时,决策树会给我一个惊人的结果。怎么会这样?
注意:我使用 GridSearchCV 但我不认为交叉验证是我的问题的原因。这是我的代码:
使用比例函数 MinMaxScaler() 我的表现是:
但没有缩放:
python-2.7 - 支持向量机的机器学习网格搜索
我正在做一个项目,我需要计算 gridsearch 返回的最佳估计量。
我不确定如何使 f1_scorer 函数发挥作用,因为我在创建 gridsearch 对象后进行了预测。创建 obj 后我无法声明 f1_scorer,因为 gridsearch 使用它作为评分方法。请帮助我如何为网格搜索创建这个评分函数。
parameters - Scikit-learn:我们如何为网格搜索定义距离度量的参数
我有以下代码片段尝试进行网格搜索,其中一个网格参数是用于 KNN 算法的距离度量。如果我使用“wminkowski”、“seuclidean”或“mahalanobis”距离度量,下面的示例将失败。
我认为这是因为我必须设置或定义各种距离参数的范围(例如 p, w 代表“wminkowski” - WMinkowskiDistance )。“minkowski”距离可能有效,因为它的“p”参数默认为 2。
所以我的问题是:
- 我们可以为网格搜索的距离度量设置参数范围吗?如果可以,如何设置?
- 我们可以为网格搜索的距离度量设置参数值吗?如果可以,如何设置?
希望问题很清楚。TIA
python - scikit-learn:为 learning_curve、GridSearchCV 等克隆一个预拟合的估计器
如何强制 sklearn 的 GridSearchCV、learning_curve 等深度复制基本估计器而不是克隆它?
更多信息:
我的自定义分类器在初始化期间将拟合的基本估计器作为参数。在拟合期间,它使用基本估计器来更快地学习(在域适应的情况下)。例如,当我使用 GridSearchCV() 调整分类器的参数时,分类器会在内部针对每个配置进行 clone()。但是,clone() 不保留预拟合的基本估计器,因为它只复制其参数(但不复制其拟合变量)。
我相信,虽然不太确定,但这与以下几点有关:
- https://github.com/scikit-learn/scikit-learn/issues/6451或许还有
- https://github.com/scikit-learn/scikit-learn/issues/1626
如果 sklearn 没有提供解决方案,那么暂时有什么想法可以解决它吗?
python - 使用多处理嵌套 for 循环
我有一个关于 python 中的多处理的快速问题。
我正在对三个参数进行相当大的网格搜索,计算大约需要 14 小时才能完成。我想通过使用多处理来缩短运行时间。
我的代码的一个非常简化的示例在这里:
现在,我在多处理方面的经验绝对为零,所以我的第一次尝试是将 for 循环更改为一个函数,然后像这样调用多处理函数:
然而,这在 pool.map 调用中失败了。我知道这个函数只需要一个可迭代的参数,但我不知道如何解决这个问题。我也怀疑 data_grid 变量是否会被正确填充。我想要从这个函数得到的结果是保存了两个文件,一个是一个值数组,其索引对应于 a、b 和 c 值,最后一个是包含 a、b、c 值和结果值的列表列表(例如在上面的代码中)
谢谢你的帮助!
-将要
dynamic - Scikit-learn:我们能否有基于数据的动态参数进行网格搜索
我正在使用“seuclidean”指标执行网格搜索。传递给网格搜索的这个指标的参数是:
现在k_range
和leaf_size
是独立于所用数据的列表。然而,在 中metric_params':[ {'V':V} ]
,V
是通常计算如下的方差:
但是,我在估计之前对数据进行了标准化。更具体地说,我为此使用了管道:
(注意:'sfs' 进行功能和参数选择)。在这样的设置中,我假设我们需要根据实际传递给估计器进行训练和验证的数据集来计算方差向量。
所以我的问题是:如何V
在拆分后对训练数据动态执行参数的计算和设置?这可能吗?如果没有,我应该如何设置这些“数据相关”参数?
TIA。
python - Scikit 学习 GridSearchCV 拟合方法 ValueError 找到 0 个样本的数组
我正在尝试使用 scikit-learn 创建一些学习曲线,这是代码:
我得到的错误是:
完整的追溯是:
现在我不明白这一点,因为当我打印样品的形状时:
我越来越:
我如果打印cv_stratified
它看起来像这样的对象:
有趣的是,如果我将test_size
参数更改为0.88
它可以工作,这是它工作的最高值。对于此值,形状为:
如果我StratifiedKFold
改为KFold
所以问题是 - 我应该在我的代码中进行哪些更改以使其也适用于test_size
设置0.95
?
我正在使用 scikit 0.17.1 版。