问题标签 [boosting]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

173 问题

0 投票

2 回答

3899 浏览

variables - 梯度提升变量重要性

我已经适合我的梯度提升模型，并正在尝试打印变量重要性。我使用了相同的代码并使用随机森林工作。运行时我不断收到错误消息varImp()。错误如下。

代码$varImp(object$finalModel, ...) 中的错误：找不到函数“relative.influence”

2018-05-01T03:39:23.563

0 投票

2 回答

5580 浏览

python - AttributeError：“str”对象没有属性“fit”

嗨，我想在蘑菇数据集上使用一个简单的AdaBoostClassifier 。喜欢：

...

使用：

但这返回了我：

---> 15 AdaBoost.fit(X,Y)

AttributeError：“str”对象没有属性“fit”

python machine-learning adaboost ensemble-learning boosting

2018-05-30T13:35:44.207

0 投票

1 回答

1550 浏览

python - 将 XGBClassifier 模型转储到文本中

我用 XGBBoost 训练了一个多标签分类模型，并想在另一个系统中编写这个模型。

是否可以在 XGB Booster 中看到我的 XGBClassifier 模型的文本输出为 dump_model。

编辑：我发现 model._Booster.dump_model(outputfile) 返回如下转储文件。但是，没有指定类的任何内容。在我的模型中，有 10 个类，但是在转储文件中只有一个助推器。所以，我不确定它是所有类的模型还是其中一个。

python xgboost multilabel-classification boosting

2018-06-06T11:23:25.153

0 投票

1 回答

570 浏览

python - Gradient Boosting 分类器 - scikit 中训练数据的准确性

我正在训练GBC。它是具有 12 类输出的多类分类器。我的问题是当我对火车数据进行预测时，我没有得到 100% 的准确率。事实上，错误预测发生在占主导地位的类集上。（我的输入是不平衡的，我会创建合成数据。）

以下是详细信息：输入数据大小：输入形状：(20744, 13)（对输出和输入进行标签编码和最小最大缩放）

数据缩放前的分布：

使用随机过采样器进行过采样

预处理后的最终形状：输入形状 X: (100198, 12)
目标形状 Y: (100198, 1)

模型：est = GradientBoostingClassifier(verbose=3, n_estimators=n_est, learning_rate=0.001, max_depth =24, min_samples_leaf=3, max_features=3)

输出：

测试数据的精度：0.9632235528942116

召回测试数据：0.9632235528942116

**我看到的问题是当我对火车数据进行预测时：我期望 100% 的预测。但不知何故，我的主导类并不是 100% 预测的。任何原因？

训练数据的精度：0.9982284987150378 训练数据的召回率：0.9982284987150378

知道出了什么问题吗？

python machine-learning scikit-learn gradient-descent boosting

2018-06-14T02:04:23.540

0 投票

0 回答

59 浏览

elasticsearch - Elasticsearch：如何提升关于关键字与文本匹配的早期程度的文档？

我想了解如何在全文搜索中提升文档，以了解在请求字段中找到关键字的时间。

例子：

文件 1（消息字段）：乔和莎拉去了商店。

文件 2（消息字段）：莎拉和乔要去游泳。

当我在消息字段中搜索包含 Joe 的文档时，我希望 Document 1 得分更高，因为它在 Document 1 中比在 Document 2 中更早地捕获了 Joe，从而提高了匹配度。

谢谢。

elasticsearch search lucene elastic-stack boosting

2018-08-29T04:24:28.260

0 投票

1 回答

265 浏览

python - Python SkLearn Gradient Boost Classifier Sample_Weight Clarification

使用 Python SkLearn 梯度提升分类器。我正在使用的设置是选择随机样本（随机）。对其中一个二元类（结果 = 0）使用 sample_weight 1，对另一个类（结果 = 1）使用 20。我的问题是这些权重如何以“外行术语”应用。

是不是在每次迭代中，模型都会从样本中选择 x 行作为 0 结果，选择 y 行作为 1 结果，然后 sample_weight 设置将启动并保留所有 x 但对 y (1) 结果进行过采样20倍？

在文档中，我不清楚 sample_weight > 1 是否过采样。我知道 class_weight 是不同的，不会改变数据，而是模型如何通过损失函数解释数据。另一方面，Sample_weight 是否真的通过过采样有效地改变了输入模型的数据？

谢谢

python scikit-learn gradient boosting

2018-08-30T11:39:29.513

0 投票

1 回答

722 浏览

r - 为什么 gbm (R package) 的预测值是负数？

我用“gbm”R 包分析了我的数据。我的数据基于一项队列研究。因此，我根据“coxph”结果运行了“gbm”模型。

建好一个模型后，我想看看这个模型如何能很好地预测。另一方面，就像下面的代码一样，预测的值是负的。所以，我很难理解这种现象。请让我知道如何解释这个值。

这是我的代码。

r boosting

2018-09-02T14:24:33.677

0 投票

1 回答

789 浏览

r - 如何在 gbm 包分析中计算生存函数？

我想根据梯度提升模型分析我的数据。

另一方面，由于我的数据是一种队列，我很难理解这个模型的结果。

这是我的代码。基于示例数据进行分析。

当我阅读包文档时，“gbm.pred”是 cox 部分可能性的结果。

在此代码中，lambda0 是基线风险函数。

所以，根据公式：h(t/x)=lambda0(t)*exp(f(x))

“危险”是危险函数。

但是，我想计算的是“生存函数”。

因为，我想将原始数据（data$status）的结果与预测结果（生存函数）进行比较。

请让我知道如何计算生存函数。

谢谢

r boosting

2018-09-07T12:34:54.647

0 投票

0 回答

89 浏览

r - adabag 和 rpart 的区别

在 R （R 版本 3.5.1 (2018-07-02) -- “Feather Spray”）中使用 rpart 和 adabag 包时，我发现了一些奇怪的东西（至少对我而言）。

我想知道即使参数化相同，在使用这两个包时获得不同树的原因是什么。看看下面的代码：

对我来说参数化是一样的，但是树是不同的。只要我知道 adabag 使用 rpart 来创建树，那么这是什么原因呢？

问候 Wojtek

r rpart boosting

2018-10-22T10:32:37.623

0 投票

1 回答

45 浏览

python - 随机森林（在python中）是一种增强算法吗？

我正在寻找随机森林和梯度提升之间的主要区别，我不明白随机森林是否使用提升技术，如果没有，为什么。谢谢！

python random-forest xgboost gradient-descent boosting

2018-10-31T06:36:56.140

1 2 3 4 5 6 7 8 9 10

问题标签 [boosting]

召回测试数据：0.9632235528942116

Reference