“gbm”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

431 浏览

r - GBM 空权重的含义

我对中的权重参数有疑问gbm。似乎将权重设置为 NULL 并使其丢失会产生不同的结果。如果您考虑文档中的第一个示例gbm：

这两个模型的结果是不同的，但我不清楚为什么。NULL 和缺失权重之间的含义有什么区别gbm？

亲切的问候

r machine-learning gbm

2016-01-11T23:24:44.880

0 投票

1 回答

62 浏览

python - 弃用警告：`h2o.gbm` 已弃用。使用 estimators 子模块构建 H2OGradientBoostedEstimator

在 Python 中使用 h2o 3.6.0.8 运行 gbm 模型时，我收到以下警告：

弃用警告：h2o.gbm已弃用。使用 estimators 子模块构建 H2OGradientBoostedEstimator。

我一直在寻找有关如何构建 H2OGradientBoostedEstimator 的示例，但没有成功。你能直接指向正确的路径吗？

谢谢

python h2o gbm

2016-01-14T17:35:47.817

0 投票

0 回答

89 浏览

machine-learning - 我可以对以时间（年）和经纬度作为预测变量的数据使用梯度提升算法吗？

我有一个包含 2005-2014 年每周天气信息、产量、纬度和经度的数据。我想根据这些数据预测 2015 年的产量。我打算使用梯度提升算法，但我不确定这是否是正确的方法，因为我也在考虑位置（经纬度）和年份作为预测因子。我想保留不同年份的数据，以便捕捉不同年份的天气变化

machine-learning statistics gbm data-science

2016-01-28T21:23:07.440

0 投票

1 回答

632 浏览

r - 如何在 r 中使用 gbm 获得预测

我尝试了上面的代码，但它给了我概率。我想得到预测

r machine-learning gbm

2016-01-29T20:26:43.930

0 投票

2 回答

1037 浏览

machine-learning - xgboost（或任何其他算法）能否通过一些不好的功能给出不好的结果？

到目前为止，我的印象是机器学习算法（gbm、随机森林、xgboost 等）可以处理数据中存在的不良特征（变量）。

在我的一个问题中，大约有 150 个功能，如果我使用所有功能，使用 xgboost 我会得到大约 1 的 logloss。但是，如果我删除了大约 10 个不良功能（使用某种技术发现），我观察到的 logloss 为 0.45。这是巨大的进步。

我的问题是，糟糕的功能真的会产生如此大的差异吗？

machine-learning random-forest gbm xgboost

2016-02-27T15:33:35.277

0 投票

1 回答

750 浏览

r - R, Caret, train(), predict(), GBM, Error: error in model.frame.default(..): Factor has new levels

所以我对正在发生的事情有一个很好的了解，但我想知道如何处理这个错误，我看过其他类似的帖子，但它们并不特定于 Gradient Boosting Machine 模型。它们似乎都与 GLM 有关，并且错误不是由我不认为的同一件事引起的。

这是我的代码：

这是我的错误：

model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) 中的错误：因子 47V 具有新级别 E、H、J

所以我的因子变量在我的训练集中有很多级别，但是从错误中我猜不是所有级别都在我的训练集中表示。当我进入我的测试集时，我的训练集中没有新的关卡，所以我收到了这个错误？

这是一个监督学习问题，我无法更改测试集并将数据移动到训练集。所以这不是抽样问题。

无论如何，有没有人知道任何设置或快速修复，以免导致我的程序崩溃？

r r-caret gbm

2016-03-04T23:32:41.257

0 投票

1 回答

1074 浏览

machine-learning - 稀疏二元矩阵的二元分类

我的犯罪分类数据集具有指标特征，例如has_rifle.

工作是训练和预测数据点是否是罪犯。该指标是加权平均绝对误差，如果这个人是罪犯，并且模型预测他/她不是，那么权重很大5。如果此人不是罪犯并且模型预测他/她是，那么权重为1。否则模型会正确预测，权重为0。

我已经使用classif:multinominmlr中的方法R，并将阈值调整为1/6。结果不是那么好。Adaboost稍微好一点。虽然两者都不是完美的。

我想知道在这种稀疏{0,1}矩阵的二元分类问题中通常使用哪种方法？以及如何提高加权平均绝对误差度量的性能？

machine-learning classification random-forest xgboost gbm

2016-03-24T18:13:22.993

0 投票

1 回答

835 浏览

r - 从 R 中的 GBM 中提取模型

有没有人熟悉如何弄清楚gbmR 中的模型内部发生了什么？

假设我们想看看如何预测Petal.Lengthin iris。为了简单起见，我跑了：

这有效，当您运行时：

然后你得到：

这在直觉上是有道理的。当你运行pretty.gbm.tree(tg) 你得到：

很明显，gbm 认为您按变量 #2 拆分并返回三个单独的回归。我认为这SplitVar==2是Petal.Width因为您看到的顺序str(iris)是有道理的。

但是缺少哪些数据？ iris没有缺失数据。然后我们如何查看创建的三个节点中的每一个节点中发生了什么？

假设我想用 C++ 编写代码用于生产，除了知道你应该根据 if 做不同的事情之外，我不知道如何知道要编写什么代码Petal.Width >.8。

谢谢，

乔什

r gbm

2016-03-28T17:20:09.287

0 投票

1 回答

105 浏览

r - 获取和排序在 R 上的 GBM 对象上使用的数据

我在 R 中有一个 GBM 对象，其中保存了基础数据，但我在使用该数据时遇到了麻烦。问题是，当我运行时x<-gbmobject$data$x.order，y<-gbmobject$data$y我没有以y与中相同的方式排序值x，换句话说，第一次观察的响应x不是中的第一次观察。似乎其中一个被洗牌或类似的东西。有谁知道我该怎么做才能将响应与正确的观察结果相匹配？谢谢！yyx

r regression machine-learning gbm

Dan

2016-04-08T15:27:57.677

0 投票

0 回答

571 浏览

apache-spark - Spark 中梯度提升树的预测概率（类概率）（版本 1.6.1/1.5.2）

从Is it possible to gain class probabilities using GradientBoostedTrees with spark mllib?

这个问题的答案是在去年 12 月给出的。我想知道 Spark 1.6.1 中是否有任何内容。

我试图编辑上述问题，但不知何故没有发生。

我的查询就像 Spark mllib 库中的大多数其他算法一样，我们可以找到预测概率。我们可以在梯度提升树分类（http://spark.apache.org/docs/latest/mllib-ensembles.html#gradient-boosted-trees-vs-random-forests）中得到相同的结果并更改模型阈值吗？

这样我就可以改变阈值来提高模型性能。

apache-spark prediction gbm

2016-04-27T06:48:32.520

问题标签 [gbm]

Reference