问题标签 [boosting]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2657 浏览

python - 为 sklearn 的 GradientBoostingClassifier 生成代码

我想从经过训练的梯度增强分类器(来自 sklearn)生成代码(现在是 Python,但最终是 C)。据我了解,该模型采用初始预测器,然后添加来自顺序训练的回归树的预测(按学习因子缩放)。选择的类是具有最高输出值的类。

这是我到目前为止的代码:

我从这个问题修改了树生成代码。

这是它生成的示例(具有 3 个类、2 个估计器、1 个最大深度和 0.1 学习率):

基于,我使用对数概率作为 F0 。

predict对于一个估计器,它给了我与训练模型上的方法相同的预测。但是,当我添加更多估计器时,预测开始出现偏差。我是否应该包含步长(在此处描述)?另外,我的F0正确吗?我应该取平均值吗?我应该将日志概率转换为其他东西吗?任何帮助是极大的赞赏!

0 投票
5 回答
5654 浏览

tree - 使用树输出预测 Spark 中梯度提升树的类概率

众所周知,到目前为止,Spark 中的 GBT 会为您提供预测标签。

我正在考虑尝试计算一个类的预测概率(比如所有实例都落在某个叶子下)

构建GBT的代码

为简单起见,这给了我 2 棵深度为 2 的树,如下所示:

我的问题是:我可以使用上述树来计算预测概率,例如:

关于用于预测的特征集中的每个实例

exp(树 0 的叶子分数 + 树 1 的叶子分数)/(1+exp(树 0 的叶子分数 + 树 1 的叶子分数))

这给了我一种概率。但不确定这是否是正确的方法。此外,如果有任何文件解释如何计算叶子分数(预测)。如果有人可以分享,我将不胜感激。

任何建议都会很棒。

0 投票
3 回答
1297 浏览

machine-learning - 集成学习的一些具体例子是什么?

有哪些具体的现实生活示例可以使用 Boosting/Bagging 算法解决?代码片段将不胜感激。

0 投票
3 回答
13900 浏览

python - 如何使用 AdaBoost 增强基于 Keras 的神经网络?

假设我为二进制分类问题拟合了以下神经网络:

我将如何使用 AdaBoost 增强神经网络?keras 对此有任何命令吗?

0 投票
1 回答
258 浏览

machine-learning - 特征工程的梯度提升树?(秩)

我正在做一个项目,我在网页上有点击/关闭,我想相应地对网页进行排名。我最初是通过编写一个简单的公式来计算相关性分数来做到这一点的,但我听说随机提升树可以帮助解决这个问题。不过,我究竟如何为使用随机提升树的页面设计“排名”功能?我在 ML 及其在监督学习方面的经验很少,你在训练中有一些输出。

0 投票
1 回答
100 浏览

lucene - 在 Cloudant 搜索索引性能上使用 lucene 的提升

我试图找出提升在 cloudant 搜索索引中的工作原理。即,如果我想通过单词“some text”进行搜索并将“some”的提升增加到 4,将“text”的提升增加到 1。Cloudant 是否会首先搜索具有“some”的文档,然后搜索“text”在第一次搜索返回的文档中。还是会同时搜索“some”和“text”并计算基于相关性的匹配

0 投票
1 回答
860 浏览

algorithm - 如何在 boosting 中实现决策树

我正在实施将使用 CART 和 C4.5 的 AdaBoost(Boosting)。我阅读了有关 AdaBoost 的信息,但我找不到很好的解释如何将 AdaBoost 与决策树一起加入。假设我有包含 n 个示例的数据集 D。我将 D 拆分为 TR 训练示例和 TE 测试示例。假设 TR.count = m,所以我设置的权重应该是 1/m,然后我使用 TR 构建树,我用 TR 测试它以获得错误的示例,并用 TE 测试以计算错误。然后我改变权重,现在我将如何获得下一个训练集?我应该使用什么样的采样(带或不带replacemnet)?我知道新的训练集应该更多地关注分类错误的样本,但我怎样才能做到这一点?那么 CART 或 C4.5 将如何知道他们应该关注具有更大权重的示例?

0 投票
1 回答
2613 浏览

r - XGBoost 设置错误

我对 R 很陌生,并且在使用 XGBoost 功能时遇到了一些问题。这是我到目前为止的代码:

我收到以下错误:

如果有人有任何建议,将不胜感激。

非常感谢

0 投票
1 回答
92 浏览

r - 通过两次拟合提升树来获得不同的值

我使用 R 包 adabag 将提升树拟合到(大)数据集(140 个观察值和 3 845 个预测变量)。

我用相同的参数和相同的数据集执行了这个方法两次,每次返回不同的精度值(我定义了一个简单的函数,它给出了给定数据集的精度)。我犯了错误还是通常在每个拟合不同的精度值返回?这个问题是基于数据集很大的事实吗?

返回给定预测值和真实测试集值的准确性的函数。

新编辑(9.1.2017):上述上下文的重要后续问题。

据我所知,我的代码中没有使用任何“伪随机对象”(例如生成随机数等),因为我基本上适合树(使用 r-package rpart)和提升树(使用 r-package adabag ) 到一个大数据集。当我执行我的代码时,你能解释一下“伪随机性”在哪里进入吗?

编辑 1:类似的现象也发生在树上(使用 R-package rpart)。

编辑 2:数据集 iris 上的树(使用 rpart)没有发生类似现象。

0 投票
1 回答
1318 浏览

elasticsearch - Boosting 对 Elasticsearch 中的布尔过滤查询没有影响

我正在尝试为与术语过滤器匹配的文档添加增强功能。基础是Boolean/MatchAll查询。但是我的 Elasticsearch 查询中的提升没有任何效果。所有结果分数都设置为 1:

但是,当使用过滤查询时,提升是有效的。但由于我系统的限制,我无法使用过滤查询。那么有什么方法可以使原始查询中的提升起作用吗?