问题标签 [ensemble-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何将 GridSearchCV 用于新的 Estimator?在这种情况下,三个分类器的集合
我的代码如下:
这是我的错误:
为什么 .fit 会产生此错误?gridsearchCV 捕捉到了好的参数。
谢谢...
python-2.7 - 如何使用 scikit-learn 执行集成(多分类器)分类?
我有一个相当有限的数据集,我正在使用 scikit-learn执行监督学习、多类文本分类。为了稍微缓解信息短缺,我想做以下事情:
从我要分类的内容中提取 ngrams,将其与内容的 unigrams 合并并执行分类
实施(或使用现有实施)基于投票的集成分类器以提高分类准确性。例如,多项式贝叶斯和 KNN 似乎对不同的类都给出了很好的结果:理想情况下,我会将它们结合起来,这样我的性能会稍微好一点(希望不会更差),而不是使用我有限的 ~50% 的劣质数据集。
虽然第一步很简单,但我找不到太多关于如何使用 scikit-learn 进行集成分类的信息。我注意到 scikit-learn 有一些关于 ensemble 类的条目,比如这个,但它似乎并不是我想要的。
有谁知道使用 scikit-learn 执行此操作的具体示例?
machine-learning - 使用 scikit-learn(或任何其他 python 框架)集成不同类型的回归器
我正在尝试解决回归任务。我发现 3 种模型对不同的数据子集效果很好:LassoLARS、SVR 和 Gradient Tree Boosting。我注意到,当我使用所有这 3 个模型进行预测,然后制作一个“真实输出”表和我的 3 个模型的输出时,我发现每次至少有一个模型非常接近真实输出,尽管还有 2 个模型可能比较远。
当我计算最小可能误差时(如果我从每个测试示例的“最佳”预测器中进行预测),我得到的误差远小于任何模型单独的误差。所以我考虑尝试将这 3 个不同模型的预测组合成某种集合。问题是,如何正确地做到这一点?我所有的 3 个模型都是使用 scikit-learn 构建和调整的,它是否提供了某种可用于将模型打包成集成的方法?这里的问题是我不想只对所有三个模型的预测进行平均,我想通过加权来做到这一点,其中应根据特定示例的属性确定加权。
即使 scikit-learn 不提供这样的功能,如果有人知道如何解决这个任务,那就太好了 - 为数据中的每个示例计算每个模型的权重。我认为这可能是由建立在所有这 3 个模型之上的单独回归器来完成的,它将尝试为 3 个模型中的每一个输出最佳权重,但我不确定这是否是最好的方法。
r - caretEnsemble 失败,is(all.models, "caretList") is not TRUE
我已经从https://gist.github.com/zachmayer/5152157尝试了 zachmayer 的代码,但是在运行 caretEnsemble 命令时出现错误“is(all.models, "caretList") is not TRUE"。我应该使用 caretList 而不是只列出所有模型的列表吗?谢谢。
machine-learning - 如何在sklearn ensamble中查看adaboost分类器的每个基本估计器的预测
我可以使用这样的代码查看使用 sklearn 的集成方法的 AdaBoostClassifier 的预测。
现在我想看看所有基本估计器的预测(即所有单个 100 个基本估计器的估计。)在 sklearn 中是否可能。我该怎么做?请帮助我。提前谢谢。
r - 如何在 R 中使用 caret Ensemble 包使用交叉验证方法时间片
嗨,当我使用 caret ensemble 包时,我一直遇到这个错误,即 createTimeslices 交叉验证方法不能用于 caretEnsemble 包。
有没有人建议如何克服这个
machine-learning - 算法协同训练机器学习,最佳策略?
我对本科生实施了协同培训,现在需要在每次迭代后实施一个集成。
例如:在第一次迭代中,我们将有一个分类器,数据将仅由该分类器标记。在第二次迭代中,我们将有一个集成进行分类,依此类推。
由于协同训练将数据分成多个分类器来进行分类,我想独立于最后给出的视觉来标记每个分类器并进行投票或在视图之间进行平均以进行标记。
我需要想法来制定最佳实施策略。我正在使用 WEKA,并且已经按照开头所述实施了联合培训。
“请原谅错误,不要说英语”。
代码: http: //pastebin.com/Xd8guMub
代码: http: //pastebin.com/FL8Y2j0c
葡萄牙语-巴西的代码注释
r - R - 如何创建堆叠器合奏?
我需要创建一个堆栈器集合,我是否将每个分类器输出的准确率汇总百分比与一个新分类器结合起来
贝叶斯
K-NN (k = 5)
K-NN (k = 10)
决策树
逻辑回归
对这 5 个百分比进行分类?
还是我需要结合许多预测的输出,例如表格:
如果采用这种方式,那么输出是否不同 IE 是否都应该是 bob 或 john 而不是 true 或 false 或 1 或 2 是否重要?
我应该使用什么分类器将它们与它们结合起来?
r - R中不同分类器的集成结果
我在不同的分类器中预测了我的数据。我想整合他们的结果,以获得更好的最终结果。在R中可能吗?
让我们说:
是否可以通过 R 中的任何集成技术组合结果?如何?
谢谢
编辑:
我在不同的样本(我的案例 DNA 染色体)上运行我的分类器。在某些示例中,SVM 比其他示例(如 RF)效果更好。我想要一种通过考虑哪个分类器效果更好来整合结果的技术。
例如,如果我取输出概率的平均值并对它们进行四舍五入,则会认为所有分类器的结果都相同。但是当 SVM 工作得更好时,我们应该考虑 SVM(准确率 86%)的结果具有 60% 的重要性和 RF 的 25%(72% 的准确率)和 15% 的 NN(64% 的准确率)。(这些数字只是为了澄清的例子)
无论如何我可以做到吗?
python - how does sklearn's Adaboost predict_proba works internally?
I'm using sklearn's 'predict_proba()' to predict the probability of a sample belonging to a category for each estimators in Adaboost classifier.
Adaboost implements its predict_proba() like this:
https://github.com/scikit-learn/scikit-learn/blob/bb39b49/sklearn/ensemble/weight_boosting.py#L733
DecisionTreeClassifier is sklearn's base estimator for Adaboost classifier. DecisionTreeClassifier implements its predict_proba() like this:
https://github.com/scikit-learn/scikit-learn/blob/bb39b49/sklearn/tree/tree.py#L549
Anyone kindly tell me how predict_proba() of Adaboost internally calculates the probability? Is there any references with the same topic which can help me ? Please inform me. Thanks in advance.