python - 如何使用 Python 中的“imblearn”库为每个类指定准确的欠采样/过采样数？

Question

我正在使用“imblearn”库进行欠采样。我的数据集中有四个类，每个类有 20、30、40 和 50 个样本数据（因为它是一个不平衡的类）。选择这些样本数是为了方便地描述问题，这些在实际中并不是有效的数量。

我想对每个有 10 个样本数据的类进行欠采样。有没有一种可能的方法可以使用“imblearn”来做到这一点？

目前，我正在使用以下代码对每个班级进行欠采样到我的少数班级拥有的数量（20 个样本数据）：

undersample = RandomUnderSampler(sampling_strategy='all')
X_under, y_under = undersample.fit_resample(X, y)

score 2 · Accepted Answer

您可以将字典传递给 sampling_strategy： undersample=RandomUnderSampler(sampling_strategy={0:10,1:10,2:10,3:10})

1 回答 1