python - LightGBM 中的交叉验证

Question

我们应该如何使用字典输出lightgbm.cv来改进我们的预测？

这是一个示例 - 我们使用以下代码训练我们的 cv 模型：

cv_mod = lgb.cv(params, 
                d_train, 
                500, 
                nfold = 10, 
                early_stopping_rounds = 25,
                stratified = True)

我们如何使用从上述代码的最佳迭代中找到的参数来预测输出？在这种情况下，cv_mod没有像那样的“预测”方法lightgbm.train，并且在中使用时，来自的字典输出lightgbm.cv会引发错误lightgbm.train.predict(..., pred_parameters = cv_mod)。

我错过了一个重要的转型步骤吗？

score 28 · Accepted Answer

一般来说，CV 的目的不是进行超参数优化。目的是评估模型构建过程的性能。

基本的训练/测试拆分在概念上与 1 倍 CV 相同（与 k 倍 CV 中的 1/K 训练大小相比，拆分的自定义大小）。进行更多拆分（即k>1 CV）的好处是可以获得更多关于泛化误差估计的信息。在获得错误+统计不确定性的意义上，有更多信息。关于 CrossValidated有一个很好的讨论（从添加到问题的链接开始，它涵盖了相同的问题，但以不同的方式表述）。它涵盖了嵌套的交叉验证，而且绝对不简单。但是，如果您总体上理解这个概念，这将在各种重要的情况下为您提供帮助。你必须带走的想法是：CV 的目的是评估模型构建过程的性能。

牢记这个想法，一般如何处理超参数估计（不仅在 LightGBM 中）？

您想在某些数据上使用一组参数训练模型，并在独立（验证）集上评估模型的每个变体。然后，您打算通过选择提供您选择的最佳评估指标的变体来选择最佳参数。
这可以通过简单的训练/测试拆分来完成。但是评估的性能以及最佳模型参数的选择可能只是特定拆分的波动。
因此，您可以在多个训练/测试拆分（即 k-fold CV ）上评估每个模型在统计上更稳健的平均评估。

然后你可以更进一步，说你有一个额外的保留集，它在超参数优化开始之前被分离。通过这种方式，您可以评估在该集合上选择的最佳模型以测量最终的泛化误差。但是，您可以更进一步，而不是使用单个测试样本，您可以使用外部 CV 循环，这将我们带到嵌套交叉验证。

从技术上讲，lightbgm.cv()仅允许您评估具有固定模型参数的 k 倍拆分的性能。对于超参数调整，您需要在循环中运行它，提供不同的参数并重新编码平均性能以选择最佳参数集。循环完成后。该接口不同于sklearn，它为您提供了在 CV 循环中进行超参数优化的完整功能。就个人而言，我建议使用 lightgbm 的 sklearn-API。它只是对本机lightgbm.train()功能的一个包装，因此它并不慢。但它允许您使用全套sklearn工具包，这让您的生活更轻松。

score 1 · Accepted Answer

如果您对 CV 结果感到满意，您只需使用这些参数来调用“lightgbm.train”方法。就像@pho 说的那样，CV 通常只用于参数调整。您不使用实际的 CV 对象进行预测。

score 0 · Accepted Answer

您应该使用 CV 进行参数优化。

如果您的模型在所有折叠上都表现良好，请使用这些参数在整个训练集上进行训练。然后在外部测试集上评估该模型。

python - LightGBM 中的交叉验证

3 回答 3

Related

Reference