问题标签 [boosting]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
335 浏览

r - eval(expr,envir,enclos)中的错误:找不到对象'PAY_0.1'(提升)

我正在尝试应用增强模型,但我不断收到此错误。任何帮助都将不胜感激。如果您想知道,这是来自 kaggle、UCI 信用卡数据的数据集。

然后我把这个拿出来。

警告消息:1:在 train.default(x, y, weights = w, ...) 中:指标“准确度”不在结果集中。将改为使用 ROC。2:在 eval(expr,envir,enclos)中:Fold01.Rep1 的预测失败:nu=0.1,maxdepth=1,iter=50 eval(expr,envir,enclos)中的错误:找不到对象'PAY_0.1'

在数据集中没有PAY_0.1, 只有PAY_0, PAY_2, PAY_3,..., PAY_6。哪里PAY_0.1来的?

0 投票
1 回答
1156 浏览

r - 基于 eval_metric 停止 xgboost

我正在尝试针对具有非常嘈杂的功能的问题运行 xgboost,并且有兴趣根据我定义的自定义 eval_metric 停止轮数。

根据领域知识,我知道当 eval_metric(根据训练数据评估)超过某个值时,xgboost 会过度拟合。而且我想只采用特定轮数的拟合模型,而不是进一步进行。

实现这一目标的最佳方法是什么?

这将在某种程度上符合早期停止标准,但不完全一致。

或者,是否有可能从中间轮中获得模型?

这是一个可以通过问题更好地解释的示例。(使用 xgboost 帮助文档附带的玩具示例并使用默认的 eval_metric)

这是输出

现在让我们从领域知识中说,我知道一旦训练误差低于 0.015(在这种情况下是第三轮),任何进一步的轮次只会导致过度拟合。我将如何在第三轮之后停止训练过程并掌握训练好的模型以使用它来预测不同的数据集?

我需要在许多不同的数据集上运行训练过程,并且我不知道要训练多少轮才能使错误低于固定数字,因此我无法将 nrounds 参数设置为预定值。我唯一的直觉是,一旦训练误差低于某个数字,我就需要停止进一步的训练。

0 投票
1 回答
1421 浏览

elasticsearch - Elasticsearch 查询:提升特定字段

我正在使用 Elasticsearch 2.4.3 并希望提升查询中的特定字段。这可能吗?我只看到如何提升索引。

问候!

更新

映射:

查询(Java API):

0 投票
2 回答
10866 浏览

r - 如何在 gbm 函数中打印变量重要性?

我使用该gbm函数来实现梯度提升。我想进行分类。之后,我使用该varImp()函数在梯度提升建模中打印变量重要性。但是......只有 4 个变量的重要性不为零。我的大数据里有371个变量....对吗?这是我的代码和结果。

有 371 个变量。所以上面的结果,我没有写其他变量。这一切的重要性都为零。

TARGET 是目标变量。我生产了 50 棵树。目标变量有两个级别。所以我使用了adaboost。

我的代码有错误吗???有一些非零变量....

感谢你的回复。

0 投票
1 回答
76 浏览

java - 无法提升缩略图字段 - SOLR

Solr新手在这里

我正在构建查询以提升网页上的某些项目,并且我希望能够提升包含缩略图(图像)值的字段:

例如在上面,“缩略图”包含一个值,因此应该显示在搜索结果页面的上方。我努力了:

但它不起作用。我知道我可以提升价值观:

工作并将首先在结果页面上显示带有“活动”的文章(也就是说,带有特价商品的项目/文章)。

为什么这不适用于缩略图?如何制定 Solr 查询,以便在没有现有缩略图的文章之前显示具有现有缩略图的文章?

编辑

正如 MatsLindh 正确指出的那样,

q=(-thumbnail:[* TO *])^99

表示所有没有缩略图的文档,而不是所有非空缩略图,这将是:

q=(缩略图:[* TO *])。

0 投票
1 回答
261 浏览

ruby-on-rails - Elasticsearch/Searchkick gem - 提升字段不返回带有特殊字符的结果(例如撇号)

我们在我们的应用程序中使用了searchkick gem,并且有许多包含特殊字符(如撇号)字段的文档,例如带有title Valentine's Day Special.

如果没有助推器,搜索ValentinesorValentine'sValentine将返回正确的搜索结果:

但是,当包含标题字段的助推器时,搜索上述任何查询都不会返回Valentine's Day Special结果。

我一直在尝试通过 Elasticsearch/Searckick 文档进行故障排除,但尚未找到解决方案。还有其他人遇到过这个问题吗?

0 投票
2 回答
8295 浏览

python - 分类结果取决于random_state?

我想使用 scikit-learn (sklearn) 实现 AdaBoost 模型。我的问题与另一个问题相似,但并不完全相同。据我了解,文档中描述的 random_state 变量用于随机拆分训练集和测试集,根据前面的链接。所以如果我理解正确的话,我的分类结果不应该依赖于种子,对吗?如果我的分类结果依赖于 random_state 变量,我应该担心吗?

0 投票
2 回答
9810 浏览

r - 在 R 中提升分类树

我正在尝试使用 R 中的包来提升分类树,但我对从函数中gbm获得的预测类型有点困惑。predict

这是我的代码:

pred.boost是一个向量,其元素来自区间(0,1)

我本来希望预测值是0or 1,因为我的响应变量z也包含二分值 - 要么0-1并且我正在使用distribution="bernoulli".

我应该如何进行预测以获得测试数据集的真实分类?我应该简单地将pred.boost值四舍五入还是该函数有什么问题predict

0 投票
0 回答
130 浏览

bootstrapping - 当我调用 sample() 函数时,为什么 R 会告诉我我的概率分布中有 NA?

当我尝试运行以下函数时遇到问题。我得到的确切错误是:Error in sample.int(length(x), size, replace, prob) : NA in probability vector

我使用这print(t)条线来查看它在哪里停止,它似乎在第 10 次迭代左右,此时,我查看NA我的概率向量中是否有任何值w,但没有。最小值在 10e-5 的量级上。

有谁知道是什么导致了这个错误?概率向量中的值是否可能太小以至于 R 将它们解释为NA

我对函数的调用:

我的功能:

编辑:所以,我发现我的错误率 ( e_t) 在 6-7 次迭代后变为 0,所以我的新权重概率向量 ( a_t) 将变为Inf,这弄乱了我的概率向量......

现在,这已不再是调试问题,而是 AdaBoost 算法的逻辑问题。如果有人有任何提示,将不胜感激!

0 投票
0 回答
187 浏览

elasticsearch - 在弹性搜索中提升多个“术语”

我想提高分数,而不是匹配多个字段。它是更大查询的一部分,所以不幸的是我无法避免不得不提升查询的这一部分。

我试过了:

和:

但两者都不起作用。