问题标签 [catboost]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1834 浏览

python - Catboost 调整顺序?

因此,使用 Catboost,您可以调整参数,也可以调整迭代。因此,对于迭代,您可以在打开过拟合检测器的情况下使用交叉验证进行调整。对于其余参数,您可以使用贝叶斯/Hyperopt/RandomSearch/GridSearch。我的问题是调整 Catboost 的顺序。我应该先调整迭代次数还是先调整其他参数。许多参数在某种程度上取决于迭代次数,但迭代次数也可能取决于参数集。那么知道哪种顺序是正确的方法吗?

0 投票
2 回答
2286 浏览

python - 具有多个块的海量数据(~22GB)的 Catboost 训练模型

我正在尝试在 csv 文件中训练一个具有大约 22GB 数据的 CatboostClassifier,该文件有大约 50 列。我尝试在熊猫数据框中一次加载所有数据,但无法做到。无论如何,我可以在 catboost 中用多个数据帧块训练模型吗?

0 投票
1 回答
754 浏览

python - Catboost 理解 - 分类值的转换

我对 catboost 有一些愚蠢的问题。

从 catboost 的文档中,我了解到行之间存在一些排列/洗牌,用于分类数据转换。(https://tech.yandex.com/catboost/doc/dg/concepts/algorithm-main-stages_cat- to-numberic-docpage/#algorithm-main-stages_cat-to-numberic )

我试图预测一次观察以检查我的模型是否有效,但出现错误。但是,通过 2 次观察,它可以正常工作。

我的问题是,对于 catboost 分类器的预测,由于排列,我们是否必须至少给出 2 个观察值?如果是,第一次观察对输出有影响吗?

0 投票
1 回答
125 浏览

catboost - 命令行版本的 catboost 中的 CatBoostClassifier 支持

是否可以在catboost的命令行版本中使用load_modelpredict_proba api?

提前致谢。

0 投票
0 回答
496 浏览

python - CatBoost:概率的负值

我尝试用CatBoostRegressor

但是我在预测中得到了一些负值。

我该如何解决?

所有代码

0 投票
4 回答
12280 浏览

python - ImportError:没有名为“_catboost”的模块

我正在使用 python 3.4 并安装了 catboost 库,但是当我尝试导入时,它显示以下错误。


0 投票
3 回答
2372 浏览

python - 在 CatBoost 中发生过拟合后,有没有办法保存训练好的模型?

我在 Python 版本的 Catboost 库中使用CatBoostRegressor 。

根据文档,可以使用我正在做的过拟合检测器,如下所示:

但是,在发生过拟合后,我的 Python 脚本被中断,提前停止,选择任何你想要的短语,并且保存模型部分没有被执行,这导致了很多时间,最终没有结果。我没有得到任何堆栈跟踪。

是否有可能在 CatBoost 中处理它并节省数小时的装配工作?

0 投票
1 回答
6685 浏览

machine-learning - Catboost:l2_leaf_reg 的合理值是多少?

在大型数据集(约 1M 行,500 列)上运行 catboost,我得到:训练已停止(迭代 0 的退化解决方案,可能太小 l2 正则化,尝试增加它)。

我如何猜测 l2 正则化值应该是多少?它与 y 的平均值、变量数、树深度有关吗?

谢谢!

0 投票
2 回答
581 浏览

python - 如何为 Catboost 创建列描述 (CD) 文件

我声明一个 CD 文件用于从以下位置读取它:

pool = Pool(features_file, CDfile)

其中 CDfile 包含文本和 <\t> 分隔符:

我有这样的结果: 第 102 列和第 1 行中的因子 False 被声明为数字并且不能被解析为浮点数。尝试更正列描述文件。

这是整个功能的切片= DataFrame()

len(cat_features),len(features.columns)9 105

第 102 列有什么问题?为什么将其声明为数字(非分类)特征?

0 投票
2 回答
2249 浏览

python - 更改 CatBoostRegressor 的参数“learning_rate”

在训练模型 CatBoostRegressor() 期间,是否有可能更改(降低)参数“学习率”(梯度步长系数)?它会减少迭代次数并加快训练速度吗?