machine-learning - 为 GBM 模型选择采样率

问问题 2015-06-18T13:24:04.117

171 次

我已经创建了几个 GBM 模型来调整我的数据的参数（树、收缩和深度），并且该模型在超时样本上表现良好。数据是信用卡交易（数以亿计），所以我抽样了 1% 的好（非事件）和 100% 的坏。

然而，当我将样本量增加到好的 3% 时，性能有了显着的提高。我的问题是 - 我如何确定最佳采样率，而无需运行多次迭代并决定哪一个最适合？有没有关于这个的理论？

我有大约 300 万笔总交易（对于 1% 的样本），包含 380k 坏账和约 250 个变量

0 回答 0