问题标签 [gbm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
431 浏览

r - GBM 空权重的含义

我对中的权重参数有疑问gbm。似乎将权重设置为 NULL 并使其丢失会产生不同的结果。如果您考虑文档中的第一个示例gbm

这两个模型的结果是不同的,但我不清楚为什么。NULL 和缺失权重之间的含义有什么区别gbm

亲切的问候

0 投票
1 回答
62 浏览

python - 弃用警告:`h2o.gbm` 已弃用。使用 estimators 子模块构建 H2OGradientBoostedEstimator

在 Python 中使用 h2o 3.6.0.8 运行 gbm 模型时,我收到以下警告:

弃用警告:h2o.gbm已弃用。使用 estimators 子模块构建 H2OGradientBoostedEstimator。

我一直在寻找有关如何构建 H2OGradientBoostedEstimator 的示例,但没有成功。你能直接指向正确的路径吗?

谢谢

0 投票
0 回答
89 浏览

machine-learning - 我可以对以时间(年)和经纬度作为预测变量的数据使用梯度提升算法吗?

我有一个包含 2005-2014 年每周天气信息、产量、纬度和经度的数据。我想根据这些数据预测 2015 年的产量。我打算使用梯度提升算法,但我不确定这是否是正确的方法,因为我也在考虑位置(经纬度)和年份作为预测因子。我想保留不同年份的数据,以便捕捉不同年份的天气变化

0 投票
1 回答
632 浏览

r - 如何在 r 中使用 gbm 获得预测

我尝试了上面的代码,但它给了我概率。我想得到预测

0 投票
2 回答
1037 浏览

machine-learning - xgboost(或任何其他算法)能否通过一些不好的功能给出不好的结果?

到目前为止,我的印象是机器学习算法(gbm、随机森林、xgboost 等)可以处理数据中存在的不良特征(变量)。

在我的一个问题中,大约有 150 个功能,如果我使用所有功能,使用 xgboost 我会得到大约 1 的 logloss。但是,如果我删除了大约 10 个不良功能(使用某种技术发现),我观察到的 logloss 为 0.45。这是巨大的进步。

我的问题是,糟糕的功能真的会产生如此大的差异吗?

0 投票
1 回答
750 浏览

r - R, Caret, train(), predict(), GBM, Error: error in model.frame.default(..): Factor has new levels

所以我对正在发生的事情有一个很好的了解,但我想知道如何处理这个错误,我看过其他类似的帖子,但它们并不特定于 Gradient Boosting Machine 模型。它们似乎都与 GLM 有关,并且错误不是由我不认为的同一件事引起的。

这是我的代码:

这是我的错误:

model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) 中的错误:因子 47V 具有新级别 E、H、J

所以我的因子变量在我的训练集中有很多级别,但是从错误中我猜不是所有级别都在我的训练集中表示。当我进入我的测试集时,我的训练集中没有新的关卡,所以我收到了这个错误?

这是一个监督学习问题,我无法更改测试集并将数据移动到训练集。所以这不是抽样问题。

无论如何,有没有人知道任何设置或快速修复,以免导致我的程序崩溃?

0 投票
1 回答
1074 浏览

machine-learning - 稀疏二元矩阵的二元分类

我的犯罪分类数据集具有指标特征,例如has_rifle.

工作是训练和预测数据点是否是罪犯。该指标是加权平均绝对误差,如果这个人是罪犯,并且模型预测他/她不是,那么权重很大5。如果此人不是罪犯并且模型预测他/她是,那么权重为1。否则模型会正确预测,权重为0

我已经使用classif:multinominmlr中的方法R,并将阈值调整为1/6。结果不是那么好。Adaboost稍微好一点。虽然两者都不是完美的。

我想知道在这种稀疏{0,1}矩阵的二元分类问题中通常使用哪种方法?以及如何提高加权平均绝对误差度量的性能?

0 投票
1 回答
835 浏览

r - 从 R 中的 GBM 中提取模型

有没有人熟悉如何弄清楚gbmR 中的模型内部发生了什么?

假设我们想看看如何预测Petal.Lengthin iris。为了简单起见,我跑了:

这有效,当您运行时:

然后你得到:

这在直觉上是有道理的。当你运行pretty.gbm.tree(tg) 你得到:

很明显,gbm 认为您按变量 #2 拆分并返回三个单独的回归。我认为这SplitVar==2Petal.Width因为您看到的顺序str(iris)是有道理的。

但是缺少哪些数据? iris没有缺失数据。然后我们如何查看创建的三个节点中的每一个节点中发生了什么?

假设我想用 C++ 编写代码用于生产,除了知道你应该根据 if 做不同的事情之外,我不知道如何知道要编写什么代码Petal.Width >.8

谢谢,

乔什

0 投票
1 回答
105 浏览

r - 获取和排序在 R 上的 GBM 对象上使用的数据

我在 R 中有一个 GBM 对象,其中保存了基础数据,但我在使用该数据时遇到了麻烦。问题是,当我运行时x<-gbmobject$data$x.ordery<-gbmobject$data$y我没有y与 中相同的方式排序值x,换句话说,第一次观察的响应x不是中的第一次观察。似乎其中一个被洗牌或类似的东西。有谁知道我该怎么做才能将响应与正确的观察结果相匹配?谢谢!yyx

0 投票
0 回答
571 浏览

apache-spark - Spark 中梯度提升树的预测概率(类概率)(版本 1.6.1/1.5.2)

Is it possible to gain class probabilities using GradientBoostedTrees with spark mllib?

这个问题的答案是在去年 12 月给出的。我想知道 Spark 1.6.1 中是否有任何内容。

我试图编辑上述问题,但不知何故没有发生。

我的查询就像 Spark mllib 库中的大多数其他算法一样,我们可以找到预测概率。我们可以在梯度提升树分类(http://spark.apache.org/docs/latest/mllib-ensembles.html#gradient-boosted-trees-vs-random-forests)中得到相同的结果并更改模型阈值吗?

这样我就可以改变阈值来提高模型性能。