问题标签 [boosting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
variables - 梯度提升变量重要性
我已经适合我的梯度提升模型,并正在尝试打印变量重要性。我使用了相同的代码并使用随机森林工作。运行时我不断收到错误消息varImp()
。错误如下。
代码$varImp(object$finalModel, ...) 中的错误:找不到函数“relative.influence”
python - AttributeError:“str”对象没有属性“fit”
嗨,我想在蘑菇数据集上使用一个简单的AdaBoostClassifier 。喜欢:
...
使用:
但这返回了我:
---> 15 AdaBoost.fit(X,Y)
AttributeError:“str”对象没有属性“fit”
python - 将 XGBClassifier 模型转储到文本中
我用 XGBBoost 训练了一个多标签分类模型,并想在另一个系统中编写这个模型。
是否可以在 XGB Booster 中看到我的 XGBClassifier 模型的文本输出为 dump_model。
编辑:我发现 model._Booster.dump_model(outputfile) 返回如下转储文件。但是,没有指定类的任何内容。在我的模型中,有 10 个类,但是在转储文件中只有一个助推器。所以,我不确定它是所有类的模型还是其中一个。
python - Gradient Boosting 分类器 - scikit 中训练数据的准确性
我正在训练GBC。它是具有 12 类输出的多类分类器。我的问题是当我对火车数据进行预测时,我没有得到 100% 的准确率。事实上,错误预测发生在占主导地位的类集上。(我的输入是不平衡的,我会创建合成数据。)
以下是详细信息:输入数据大小:输入形状:(20744, 13)(对输出和输入进行标签编码和最小最大缩放)
数据缩放前的分布:
使用随机过采样器进行过采样
预处理后的最终形状: 输入形状 X: (100198, 12)
目标形状 Y: (100198, 1)
模型:est = GradientBoostingClassifier(verbose=3, n_estimators=n_est, learning_rate=0.001, max_depth =24, min_samples_leaf=3, max_features=3)
输出:
测试数据的精度:0.9632235528942116
召回测试数据:0.9632235528942116
**我看到的问题是当我对火车数据进行预测时:我期望 100% 的预测。但不知何故,我的主导类并不是 100% 预测的。任何原因?
训练数据的精度:0.9982284987150378 训练数据的召回率:0.9982284987150378
知道出了什么问题吗?
elasticsearch - Elasticsearch:如何提升关于关键字与文本匹配的早期程度的文档?
我想了解如何在全文搜索中提升文档,以了解在请求字段中找到关键字的时间。
例子:
文件 1(消息字段):乔和莎拉去了商店。
文件 2(消息字段):莎拉和乔要去游泳。
当我在消息字段中搜索包含 Joe 的文档时,我希望 Document 1 得分更高,因为它在 Document 1 中比在 Document 2 中更早地捕获了 Joe,从而提高了匹配度。
谢谢。
python - Python SkLearn Gradient Boost Classifier Sample_Weight Clarification
使用 Python SkLearn 梯度提升分类器。我正在使用的设置是选择随机样本(随机)。对其中一个二元类(结果 = 0)使用 sample_weight 1,对另一个类(结果 = 1)使用 20。我的问题是这些权重如何以“外行术语”应用。
是不是在每次迭代中,模型都会从样本中选择 x 行作为 0 结果,选择 y 行作为 1 结果,然后 sample_weight 设置将启动并保留所有 x 但对 y (1) 结果进行过采样20倍?
在文档中,我不清楚 sample_weight > 1 是否过采样。我知道 class_weight 是不同的,不会改变数据,而是模型如何通过损失函数解释数据。另一方面,Sample_weight 是否真的通过过采样有效地改变了输入模型的数据?
谢谢
r - 为什么 gbm (R package) 的预测值是负数?
我用“gbm”R 包分析了我的数据。我的数据基于一项队列研究。因此,我根据“coxph”结果运行了“gbm”模型。
建好一个模型后,我想看看这个模型如何能很好地预测。另一方面,就像下面的代码一样,预测的值是负的。所以,我很难理解这种现象。请让我知道如何解释这个值。
这是我的代码。
r - 如何在 gbm 包分析中计算生存函数?
我想根据梯度提升模型分析我的数据。
另一方面,由于我的数据是一种队列,我很难理解这个模型的结果。
这是我的代码。基于示例数据进行分析。
当我阅读包文档时,“gbm.pred”是 cox 部分可能性的结果。
在此代码中,lambda0 是基线风险函数。
所以,根据公式:h(t/x)=lambda0(t)*exp(f(x))
“危险”是危险函数。
但是,我想计算的是“生存函数”。
因为,我想将原始数据(data$status)的结果与预测结果(生存函数)进行比较。
请让我知道如何计算生存函数。
谢谢
r - adabag 和 rpart 的区别
在 R (R 版本 3.5.1 (2018-07-02) -- “Feather Spray”)中使用 rpart 和 adabag 包时,我发现了一些奇怪的东西(至少对我而言)。
我想知道即使参数化相同,在使用这两个包时获得不同树的原因是什么。看看下面的代码:
对我来说参数化是一样的,但是树是不同的。只要我知道 adabag 使用 rpart 来创建树,那么这是什么原因呢?
问候 Wojtek
python - 随机森林(在python中)是一种增强算法吗?
我正在寻找随机森林和梯度提升之间的主要区别,我不明白随机森林是否使用提升技术,如果没有,为什么。谢谢!