问题标签 [catboost]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1582 浏览

catboost - catboost 是否支持 one-hot 编码?

我有一次性编码的标签。我想用它们来训练和预测一个 catboost 分类器。但是,当我拟合时它给了我一个错误,说标签的每行不允许多个整数值。那么 catboost 是否不允许标签的 one-hot 编码?如果没有,我怎样才能让 catboost 工作?

0 投票
1 回答
2845 浏览

python - IPython ImportError:无法导入名称布局

我正在根据这篇文章尝试 CatBoost

在它的代码中,CatBoost 有plotin model.fit(),所以我想在我的 IPython 上尝试一下。

这是我的 CatBoost 代码:

但是,它不能显示任何情节并不断给我错误:

在此处输入图像描述

我确实安装了 ipywidgets 和 ipython。你知道如何处理这个问题吗?

0 投票
2 回答
878 浏览

python-3.x - 在 catboost 中使用先前训练的模型进行进一步预测

我想找到使用 Catboost 进行分类的最佳参数。我有训练数据和测试数据。我想运行该算法进行 500 次迭代,然后对测试数据进行预测。接下来,我想重复 600 次迭代,然后是 700 次迭代,依此类推。我不想再次从迭代 0 开始。那么,有什么办法可以在 Catboost 算法中做到这一点?

非常感谢任何帮助!

0 投票
1 回答
3427 浏览

machine-learning - 使用 catboost 进行排名任务

我想知道如何为排名任务配置 catboost。catboost 主页暗示它可以用于对任务进行排名。然而,排名任务的文档似乎很少: https ://tech.yandex.com/catboost/doc/dg/concepts/cli-reference_train-model-docpage/

并且所有教程都侧重于对单个实例进行分类: https ://github.com/catboost/catboost/tree/master/catboost/tutorials

理想情况下,会有一些类似于 LightGBM 的文档或示例用于排名:https ://github.com/Microsoft/LightGBM/tree/master/examples/lambdarank

有人用catboost来排名吗?

0 投票
2 回答
1490 浏览

catboost - 如何从 Catboost 获得训练有素的树木?

我使用 --print-trees --verbose 打印树并获得如下输出:

如何获取每棵树的拆分值和结果类?

0 投票
3 回答
1669 浏览

r - 如何使用`catboost`选择nrounds?

如果我理解正确catboost,我们需要使用 CV调整nrounds就像 in 一样。我在[8]官方教程xgboost中看到如下代码

哪个结果最好iterations= 211。

我的问题是:

  • 是否正确:此命令使用test_pool来选择最佳iterations而不是使用交叉验证?
  • 如果是,catboost 是否提供iterations从 CV 中选择最佳的命令,还是我需要手动执行?
0 投票
1 回答
1080 浏览

python - CatBoostRegression 在测试直线上预测

测试数据集中的 CatBoostRegressor 拟合一条直线

红色是 CatBoostRegressor

第一张图是训练数据集(基于噪声罪训练的 CatBoostRegressor)第二张图是测试数据集

为什么它适合一条直线?其他功能相同(如 f(x)=x 等)

0 投票
3 回答
4054 浏览

machine-learning - XGBoost/CatBoost中具有大量类别的分类变量

我有一个关于随机森林的问题。想象一下,我有关于用户与项目交互的数据。项目的数量很大,大约 10 000 个。我的随机森林输出应该是用户可能与之交互的项目(如推荐系统)。对于任何用户,我都想使用一个功能来描述用户过去与之交互的项目。但是,将分类产品特征映射为 one-hot 编码似乎非常低效,因为用户最多与不超过几百个项目交互,有时只有 5 个。

当输入特征之一是具有约 10 000 个可能值的分类变量并且输出是具有约 10 000 个可能值的分类变量时,您将如何构建随机森林?我应该使用具有分类功能的 CatBoost 吗?或者我应该使用 one-hot 编码,如果是这样,你认为 XGBoost 或 CatBoost 做得更好吗?

0 投票
0 回答
696 浏览

r - 在 Windows 上安装 CatBoost R 包时出错

我试图在 Windows 上安装 CatBoost R 包,但没有成功。我已经阅读了所有说明以及stackoverflow帖子。

到目前为止,我所管理的是安装 python 和 VC++ 组件。

我可以编译包,但在安装时出现错误“TypeError:resolve_system_cxx() 恰好需要 4 个参数(给定 3 个)”。我正在搜索 CatBoost 存储库,但无法识别该函数的源文件。你能帮我进一步吗?

这是完整的日志

我正在使用 Windows 7 和 python (3.6) 的 64 位版本,以及 R (3.3) 的 Microsoft 发行版和 R 工具 3.4 来构建包。

干杯安德烈

0 投票
1 回答
237 浏览

python - Catboost 的详细信息可以是 int 吗?

我正在使用 python 的 CatBoostClassifier()。

我可以将其详细更改为int吗?输出当前是标准输出的测量损失函数,每一次迭代,都会使这个输出变得很长以进行分析。

我希望以 50 次迭代的间隔查看此输出,例如verbose=50(verbose=int)。

这可能吗?如果是这样,怎么做?