0

我们用于建模的样本集是从一个大的整个数据集中采样的。通常当我们在记分卡模型中使用逻辑回归时,我们会将样本集整个数据集之间好坏样本比率的变化视为因子权重

如果我们考虑将模型应用于整个数据集,我认为当我们使用 lightGBM 时,该因素会影响树的分割。就像我们有一个叫做“年龄”的特征。如果我们不考虑权重,它应该在 32 上拆分,但权重告诉我们在整个数据集或总体中,更多的样本低于 25,拆分应该是 28。

我在 lightGBM 中找到了两种可能的方法:将is_unbalance设置为 False 并将scale_pos_weight设置为我们的weight,或者将is_unbalance设置为 True 并将我们的weight作为数组传递给 fit 函数中的参数“sample_weight”。

不知道哪一个是有效的,能达到我们在lightGBM中考虑样本权重的目标

4

0 回答 0