问题标签 [ensemble-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - How to handle categorical variables in sklearn GradientBoostingClassifier?
I am attempting to train models with GradientBoostingClassifier using categorical variables.
The following is a primitive code sample, just for trying to input categorical variables into GradientBoostingClassifier
.
The following error appears:
From what I gather, it seems that One Hot Encoding on categorical variables is required before GradientBoostingClassifier
can build the model.
Can GradientBoostingClassifier
build models using categorical variables without having to do one hot encoding?
R gbm package is capable of handling the sample data above. I'm looking for a Python library with equivalent capability.
intersystems-ensemble - 文件中大数据的数据转换
我是 ensemble 的新手,并且对数据转换有一个澄清。
我有2个模式如下,
和另一个模式,
现在有一个传入的文本文件,其中包含根据第一个模式(“|”分隔)的 1000 条记录,如下所示,
像这样在输入文件中有 1000 条记录
我的要求是根据第二个模式转换它(即分隔地址)并存储在文件中,例如,
我实施的一种解决方案是遍历文件中的每一行,并将地址中的 , 替换为“|”。
我的问题是,我们是否可以通过 DTL 做到这一点。如果答案是肯定的,我们如何使用 DTL 遍历 1000 条记录。
DTL会不会很耗时?因为我们需要加载模式然后进行转换。
请帮忙。
python - sklearn 集成和树中连续变量的分箱
谁能告诉我sklearn(Python)中的集成(如随机森林、梯度提升、Adaboost)和树(如决策树)如何处理连续变量?在建造树木时,它们是否被视为每个单独的价值?还是他们自动装箱?如果它们被分箱 - 遵循的逻辑是什么。如果它们没有被装箱,我肯定我错过了一些东西。应该有一些可用的智能分箱(内置?),它将根据类分布将变量值分箱(至少在二进制分类的情况下)
深入:当我在 weka 中加载我的 arff(高度倾斜的数据集中的数百万行和数百个特征)并滚动浏览变量/目标(二进制)图时,我可以看到其中许多都有强大的 bin(目标为正的区域)。这些垃圾箱,即 >=x <=y 是否被 sklearn 中提到的上述模型自动拾取?见附图(如果你能看到它,变量/目标图中有非常细的 6 条红线)
非常感谢您对此的任何见解
问候
machine-learning - 随机森林:如何偏爱假阴性而不是假阳性
我正在尝试使用一些自定义随机森林实现来解决二进制分类问题。
目标是预测项目属于 A 类的可能性。评估策略的定义是,假阳性(A 的可能性很高,而实际的类别是 B)比假阴性(A 的可能性低,而实际课程是 A)。
应该如何调整标准算法以利用这一点来获得更高的评估分数?
matlab - 在 Matlab 中访问随机森林结果
我在 Matlab 中估计一个随机森林,并尝试在估计后获取有关树结构的信息。特别是,对于集合中的每棵树,我想弄清楚——通过树的哪条路径提供了最高/最低和最/最不准确的预测。- 这些路径具有哪些特征和阈值。
我发现很难访问 Matlab 结果来做到这一点。作为一个最小示例,请考虑帮助文件中的示例:
现在,例如
提供第一棵树的估计值。功能
提供有关每个节点的平均预测以及哪些节点是终端节点的信息。我可以通过例如找到所有终端节点的最高(同样也是最低)预测
我剩下的问题是:说,我发现节点 4 是我想要的。如何提取通向节点 4 的路径(包括拆分变量和截止值)?
我会感谢任何帮助,最好的,汤姆
machine-learning - 将提升用于决策树和概念层次结构的重要性
我有两个问题。1、为了提高分类器的性能,大部分时候我们使用bagging或者boosting的方法。可以使用boosting来提高决策树分类器的准确率吗?2. 我们计算某些属性的概念层次。在数据挖掘之前计算它们的目的是什么。当元数据不可用时,是否存在任何半监督方法来获取它?
python - 如何使用 python 集成 SVM 和 Logistic 回归
我正在做一个文本分类的任务(7000 个文本由 10 个标签均匀分布)。通过探索 SVM 和 Logistic 回归
我得到了两个准确度,score1
我score2
想我是否可以通过开发一个结合上述两个分类器输出的集成系统来提高我的准确度。我自己学到了知识ensemble
,我知道有bagging,boosting,and stacking
。但是,我不知道如何在ensemble
. 谁能给我一些想法或给我一些示例代码?
artificial-intelligence - 使用 Encog 进行集成学习
是否可以举例说明如何使用 Encog 创建集成学习器以进行时间序列预测?
我在想一个 iRPROP+ 集成学习器。
谢谢
python - 是否可以在 sklearn.ensemble 中使用不同的分类器?
我一直在学习sklearn.ensemble,例如,
clf =AdaBoostClassifier(svm.LinearSVC(),n_estimators=10,max_samples=0.1,)
我的问题是我是否可以使用不同的分类器作为base_estimator
,因为base_estimator
只能接受一个Object
,如果我想LogisticRegression()
继续对被错误分类的实例进行分类 LinearSVC()
,我该怎么办?可能吗?
python - sklearn.ensemble.AdaBoostClassifier 不能接受 SVM 作为 base_estimator?
我正在做一个文本分类任务。现在我想ensemble.AdaBoostClassifier
用LinearSVC
as base_estimator
。但是,当我尝试运行代码时
发生错误。TypeError: AdaBoostClassifier with algorithm='SAMME.R' requires that the weak learner supports the calculation of class probabilities with a predict_proba method
第一个问题是不能svm.LinearSVC()
计算类概率吗?如何让它计算概率?
然后我更改参数algorithm
并再次运行代码。
这一次TypeError: fit() got an unexpected keyword argument 'sample_weight'
发生了。正如AdaBoostClassifier中所说,Sample weights. If None, the sample weights are initialized to 1 / n_samples.
即使我将整数分配给n_samples
,也会发生错误。
第二个问题是什么n_samples
意思?如何解决这个问题呢?
希望有人可以帮助我。
然而,根据@jme 的评论,在尝试之后
程序无法得到结果,服务器上使用的内存保持不变。
第三个问题是如何AdaBoostClassifier
使用SVC
base_estimator?