问题标签 [grid-search]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - GridSearchCV 得分与误差函数的区别
使用自定义错误函数时,GridSearchCV的best_score_是什么意思?
我正在使用 Scikit GridSearchCV 进行一个简单的实验。
1)训练简单的支持向量机:
2) 打印结果:
所以这是主要的麻烦:为什么值不同?我猜 GridSearchCV 分数是 R^2 分数,我可以让 GridSearchCV 返回错误函数值而不是 R^2 吗?
python - 以f1为评分函数的网格搜索,执行错误?
我正在训练 MLP 并使用 sklearn 的 0.18dev 版本。我不知道我的代码有什么问题。你们能帮忙吗?
和错误信息
MLPClassifier 这就是我的输入的样子。
这就是我的输出的样子
python - scikit klearn 中的 FeatureUnion 和不兼容的行维度
我已经开始使用 scikit learn 进行文本提取。当我在管道中使用标准函数 CountVectorizer 和 TfidfTransformer 并且尝试与新功能(矩阵的串联)结合时,我遇到了行维度问题。
这是我的管道:
这是我的 AddNEd 类,它在每个文档(示例)上添加 30 个新闻功能。
我的主程序的第一部分
但我得到了这个结果:
当然还有 Indexerror 异常
当我在变换函数(AddNed 类)中有参数 X 时,为什么我没有 X 的 numpy 数组 (486, 3000) 形状。我只有 (323,) 形状。我不明白,因为如果我删除 Feature Union 和 AddNed() 管道,CountVectorizer 和 tf_idf 可以使用正确的功能和正确的形状正常工作。如果有人有想法?非常感谢。
python - Python sklearn:评分
我想通过评分标签“1”来使用 GridSearchCV 以获得最佳 f1 分数,但不知何故它针对另一个指标进行了优化,我不明白,这是我的代码;
输出,
第二次尝试,只是改变'random_sate',
输出,
第三次尝试,
输出,
所以,起初,我认为它根据标签'0'进行优化,它没有。我不明白我做错了什么。虽然看起来还不错,但我知道在这个范围内至少有一个更好的分数。
我怎么知道错了,因为我可以手动找到更好的,
scikit-learn - 在一次网格搜索中尝试多个估计器
有没有一种方法可以在Sklearn或任何其他库中一次对多个估计器进行网格搜索。例如,我们可以在一次网格搜索中通过 SVM 和随机森林吗?
scikit-learn - `'GridSearchCV' 对象没有属性 'best_score_'` - 我误解了 gridsearch 的使用吗?
我正在尝试在 sklearn 的线性回归模型中完成网格搜索。我有以下代码:
错误
我是否忽略或错过了这里的任何重要步骤?谢谢!!
python - Scikit-learn 在 DecisionTreeClassifier 上使用 GridSearchCV
我尝试在 DecisionTreeClassifier 上使用 GridSearchCV,但出现以下错误:TypeError: unbound method get_params() must be called with DecisionTreeClassifier instance as first argument (什么都没有代替)
这是我的代码:
python - 将评分函数从 sklearn.metrics 传递给 GridSearchCV
GridSearchCV 的文档指出我可以通过评分功能。
评分:字符串,可调用或无,默认=无
我想使用原生的accuracy_score作为评分函数。
所以这是我的尝试。进口和一些数据:
现在,当我只使用没有评分功能的 k 折交叉验证时,一切都按预期工作:
但是当我将线路更改为
我得到了错误:ValueError: Cannot have number of folds n_folds=10 greater than the number of samples: 6.
我认为这并不代表真正的问题。
在我看来,问题在于accuracy_score
不遵循scorer(estimator, X, y)
文档中所写的签名
那么我该如何解决这个问题呢?
machine-learning - Bagging 分类器的“max_samples”关键字如何影响每个基本估计器使用的样本数量?
我想了解 Bagging 分类器的 max_samples 值如何影响用于每个基本估计器的样本数量。
这是 GridSearch 输出:
在这里,我找出最好的参数是什么:
现在我正在挑选最好的网格搜索估计器,并尝试查看特定 Bagging 分类器在其 100 个基本决策树估计器集中使用的样本数量。
现在,训练集的大小是 891。由于 CV 为 5,891 * 0.8 = 712.8 应该进入每个 Bagging 分类器评估,并且由于 max_samples 是 1.0,891 * 0.5 * 1.0 = 712.8 应该是每个基的样本数估算器,或接近它的东西?
那么,为什么数字在 564 +/- 10 范围内,最大值为 587,根据计算,它应该接近 712?谢谢。
python - gridsearchcv 花费太多时间并抛出随机错误?
很长一段时间以来,我一直在努力使用 Gridsearchcv。
在对我的火车数据进行矢量化后,我使用网格搜索来进行有效的参数设置,但我得到了连续的错误。
我的代码是这样的:
但是我已经定义了clf
,在检查gridsearchcv 文档之后我也没有发现任何帮助。
请帮忙。