问题标签 [boosting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在r中计算GBM精度
我使用 gbm() 函数来创建模型,我想获得准确性。这是我的代码:
但是,使用汇总功能时,会出现错误。错误信息如下。
并且,使用均值函数测量MSE时,还会出现以下错误:
你知道为什么会出现这两个错误吗?先感谢您。
syntax - Scikit-learn GradientBoostingClassifier random_state 不工作
所以我在 sklearn 中弄乱了不同的分类器,发现无论 random_state 参数 GradientBoostingClassifier 的值如何,它总是返回相同的值。例如,当我运行以下代码时:
输出是:
但是,当我使用另一个分类器(例如 RandomForest)运行相同的东西时:
输出是您所期望的,即略有变化:
什么可能导致 GradientBoostingClassifier 忽略随机状态?我检查了分类器信息,但一切似乎都很正常:
我尝试弄乱 warm_start 和 presort 但它没有改变任何东西。有任何想法吗?我一直在尝试解决这个问题将近一个小时,所以我想我会在这里问。感谢您的时间!
machine-learning - 为什么基于树的模型不需要对标称数据进行 one-hot 编码?
我们通常对标称数据进行 one-hot 编码,以便更合理地计算特征之间的距离或权重,但我经常听说随机森林或 boosting 模型等基于树的模型不需要进行 one-hot 编码,但我在网上搜索过,不知道,谁能告诉我为什么或指导我一些材料弄清楚吗?
apache - 如何知道何时使用 Solr bq 与 bf 以及如何应用查询逻辑?
我刚刚开始学习 Solr 中的 boosting,到目前为止,我已经能够根据一些特定的短语添加 boost 查询,例如:bq=manufacturer:sony^2
. 但是,我现在希望将逻辑应用于提升,但我不确定如何进行。
具体来说,我已经有一个包含多个术语的提升查询,例如
bq = manufacturer:"sony"^2 name:"bob"^3 town:"place"^4 age:"40"^5
但我想知道是否可以添加另一个术语,它是一组较小术语的集合,这样如果一个或多个匹配,那么对于给定的搜索结果,整个术语的权重更高?就像是:
bq = manufacturer:"sony"^2
( name:"bob" OR town:"place" OR age:"40"
) ^5
其中括号中的多项具有一个相关的权重 (5),仅当其一个或多个子项匹配时才“激活”。
像这样的东西只是属于 abq
还是更接近于 boost 函数?我对主要区别是什么感到困惑。
谢谢你的帮助。
search - 当文档字段与提升查询 (bq) 中的术语匹配/不匹配时,Solr 会发生什么?
我想知道如何解释提升查询。我知道如果一个文档在提升上匹配,bq=name:"bob"^5
那么它将被赋予更高的排名,但一般来说,如果您有许多具有不同字段的术语,当给定文档字段与值不匹配时会发生什么?
bq 中的这个术语是否只是“丢弃”并被忽略了?这是否是说如果您在文档上有类似bq=name:"bob"^5 location:"Boston"2
但只有名称匹配的内容,那么它将获得 5 分,但如果两者都匹配,则得分为 7?我已经阅读了文档,但我仍然无法理解这一点。
感谢您的任何见解!
elasticsearch - boosting的规范化和内部优化如何工作?这对相关性有何影响?
我是弹性搜索的新手。我无法理解文档中字段的提升值的校准和缩放。就像我们应该如何决定字段的提升值一样,它才能按预期工作。我也浏览了一些在线博客和 es 文档,上面写着 es 对提升值进行规范化和内部优化?这是如何运作的?
例如:如果我们的文档中有标签、标题、名称和文本字段,我们应该如何确定这些的提升值?
r - 重现 C5.0 试验的提升
我正在使用带有 R 的 C50 包,需要导出模型以进行生产。
我正在使用提升选项,我知道试验是加权的,但我的输出中没有指定权重。
我没有使用权重选项进行错误分类,我只需要试验权重。
有没有办法通过 R 知道我的 c50 模型每次试验的重量?
r - Caret 使用 C5.0 方法,如何绘制最终树
我正在使用 train 包 method=C5.0 并希望看到 finalModel 绘制为一棵树。结果树已定义:
当我尝试使用 plot 或拨浪鼓的 fancyRplotModel 绘制树时,出现以下错误:
使用情节:
使用拨浪鼓:
finalModel 已定义:
solr - 从 LatLonType 升级到 LatLonPointSpatialField
我正在使用 Solr 6.5.1
LatLonType 现在已弃用(https://lucene.apache.org/solr/guide/6_6/spatial-search.html),我正在尝试使用 LatLonPointSpatialField。我还需要它是多值的。
我的字段定义如下:
<fieldType name="location" class="solr.LatLonPointSpatialField" docValues="true"/>
我曾经像这样提升我的 LatLonType 字段:
boost=recip(geodist(sfield,45.15,-93.12),3 ,10000,3000)
(我正在使用 eDisMax)。
更改空间数据类型后,出现此错误:
A ValueSource isn't directly available from this field. Instead try a query using the distance as the score.
我不明白。
该文档没有说明如何使用geodist
带有 edismax 的函数在boost=
参数中使用它。相反,它只是建议使用函数值进行排序:
https ://lucene.apache.org/solr/guide/6_6/spatial-search.html#SpatialSearch-geodist
但是这对我不起作用,我不需要按距离排序,我希望geodist()
函数与分数相乘以改变结果分数。
r - 在 R 中的 gbm 函数中使用样条变换
我正在尝试在 R 中的提升算法(gbm 函数)中使用样条变换(bs 函数)。但是,当我编写以下代码时,它会抛出一个错误:
data.matrix(x) 中的错误:要替换的项目数不是替换长度的倍数
有什么方法可以在 R 的 gbm 函数中使用样条变换?