问题标签 [ensemble-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 R 中创建堆叠预测模型
我正在尝试学习如何创建一个混合模型,该模型专门训练基本模型的输出。按照网上的建议(来自约翰霍普金斯大学数据科学课程),我可以在能够在相同的标记测试数据上训练我的模型的小例子中成功地做到这一点,然后我预测。
理论上,这个过程相对简单。
- 建立基础模型
- 对于每个模型,预测测试数据
- 结合 newDF 中的预测,将 testingData 中的标记结果作为附加列包含在内。
- 在 newDF 上训练组合或“元”模型。这个模型应该学会“说”这样的话:“当 mod1 预测 0,mod2 预测 1 等等,最可能的真实结果是 0”
- 对验证数据重复步骤 2 和 3
- 使用组合模型对验证数据进行最终预测。
下面显示了一个有效的过程:
然而,下面的代码似乎表明组合模型没有产生新的预测,它只是回收它的训练信息。有效的代码(上图)和无效的代码(下图)之间的具体区别在于前者有效地训练和预测相同大小的标记数据帧,而后者在 1 大小的 DF 上训练并预测另一个大小的未标记 DF。
我完全确定我错过了一个简单的概念,我只是不确定它是什么。
r - `h2o.cbind` 只接受 H2OFrame 对象 - R
我正在尝试在 R 中使用 H2O 的逻辑回归来集成随机森林。但是,以下代码中出现错误消息:
显然我的参数是正确给出的,但如你所见,消息:h2o.cbind accepts only of H2OFrame objects appears
。错误的原因可能是什么?
tree - XGBoost - 学习率
我正在使用 XGBoost 进行一些实验。我将迭代次数设置为 1000 并得到结果 - 合理的..
比我尝试做一些不同的事情:
而不是运行 1000 次迭代,我想运行 100 次迭代,这个重复 10 次(总共也 1000 次迭代)。在这 10 步之间,我设置了:target_learn = target_learn - target_fitted(来自上一步)。
而不是 target_fitted = target_fitted + 预测
Target_fitted 预测是通过对所有数据集的测试集进行交叉验证获得的。
我得到了不同的结果——准确度很差。
比我跑得更远,只跑了 5 次迭代,做了 200 次……甚至更糟……
我之所以尝试这样做,是因为我想在迭代期间更改学习矩阵(尝试做一些重复性的事情)。
任何想法为什么结果不同......在我看来,每一步的第一次迭代都是不同的,所以我在模型中多次迭代,这正在扼杀准确性......
其他参数一样。。
或者也许我错过了完整的东西..?谢谢
r - 值 [[3L]](cond) 中的 h2oensemble 错误:参数“training_frame”必须是有效的 H2O H2OFrame 或 id
在尝试从 Rstudio 中运行http://learn.h2o.ai/content/tutorials/ensembles-stacking/index.html上的 H2OEnsemble 示例时,我遇到以下错误:
值 [3L] 中的错误:参数“training_frame”必须是有效的 H2O H2OFrame 或 id
在定义集合之后
我安装了两者的最新版本,h2o
但h2oEnsemble
问题仍然存在。我在这里读过`h2o.cbind` 只接受 H2OFrame 对象 - R命名约定h2o
随着时间的推移而改变,但我假设通过安装两者的最新版本这应该不再是问题。
有什么建议么?
machine-learning - 关于决策树和随机森林分类器(scikit)的疑问
我是决策树的新手,所以这些问题可能是微不足道的。
决策树:
- 根据 scikit doc ( http://scikit-learn.org/stable/modules/tree.html ),“predict_proba”函数返回每个类的概率,它是同一类的训练样本在叶子中的比例。这到底是什么意思呢。
随机森林分类器:
- 在随机森林分类器中使用替换(自举)采样的优势是什么。它比粘贴提供了哪些额外的好处,即获取数据集的随机子集(http://scikit-learn.org/stable/modules/ensemble.html)
- scikit 随机森林分类器中有一个参数为“bootstrap_features”(特征是在有或没有替换的情况下绘制的)。用替换绘制特征到底是什么意思。根据我的理解,在种植一棵树时,您不能再次使用相同的功能。那么替换一个特性究竟意味着什么。
- 从随机森林分类器中学习变量重要性背后的直觉是什么。
r - randomForest、randomForestSRC 或 cforest 中单棵树的可变重要性?
我试图在 R 中找到一种方法来计算随机森林或条件随机森林的单棵树的变量重要性。
一个好的起点是rpart:::importance
计算rpart
树的变量重要性度量的命令:
该randomForest::getTree
命令是从对象中提取树结构的标准工具randomForest
,但它返回一个data.frame
:
一种解决方案是使用as.rpart
命令强制对象。不幸的是,我不知道任何 R 包中的这个命令。tree1
rpart
使用这个party
包我发现了一个类似的问题。该varimp
命令适用于cforest
对象,而不适用于单个树。
任何帮助表示赞赏。
python - 在sklearn中将概率估计与支持向量机相结合
我目前正在使用支持向量机来预测用户将购买给定人口统计数据的商品。该数据集还包括某个年龄段的用户购买了每件商品的数量。它看起来像这样:
我不确定如何将其合并到训练数据中,因为我能想到的将其合并的唯一方法是包含一组用户购买该商品的概率值,但这非常笨拙。我的另一个想法是使用集成学习方法,并将 svm 与可能的朴素贝叶斯分类器结合起来。我正在使用 sklearn 来构建我的模型。
r - mlr - 集成模型
mlr 包很棒,创建 ModelMultiplexer 的想法也有帮助。但是 ModelMultiplexer 从使用的模型中“选择” 1 个单一模型。
是否有任何支持或计划支持创建单个模型的 Bagged 或 Boosted Ensemble?
machine-learning - 随机森林,文本分类
如何使用单词作为特征来使用随机森林算法对文本进行情感分析?我使用单词作为特征,而随机森林使用数字,这就是我卡住的地方。
r - 集成学习器、装袋和 adaboosting
bagging
我已经实现了两种集成技术,即adaboosting
在 r 中应该适用于任何学习者。
我的网格:
我的变量:
我的装袋:
我的改进:
我的问题:
- 您能否就实施是否正确提出建议?
- 该模型的性能与单个学习器的性能相同,甚至更差。为什么会发生?我做错了什么?
非常感谢!