0

我遇到了一个很大的不平衡分类问题,想通过对次要类进行过采样来解决这个问题。(N(class 1) = 8,5mio, N(class n) = 3000)

为此,我想通过

data_oversampled = []
for data_class_filtered in data:
    data_oversampled.append(data_class_filtered.sample(n=20000, replace=True))

其中data是特定于类的 DataFrame 的列表,len(data)=10并且data.shape=(9448788,97)

这按预期工作,但不幸的是需要永远。有没有更有效的方法来做同样的事情?

4

0 回答 0