0

我已经创建了几个 GBM 模型来调整我的数据的参数(树、收缩和深度),并且该模型在超时样本上表现良好。数据是信用卡交易(数以亿计),所以我抽样了 1% 的好(非事件)和 100% 的坏。

然而,当我将样本量增加到好的 3% 时,性能有了显着的提高。我的问题是 - 我如何确定最佳采样率,而无需运行多次迭代并决定哪一个最适合?有没有关于这个的理论?

我有大约 300 万笔总交易(对于 1% 的样本),包含 380k 坏账和约 250 个变量

4

0 回答 0