1

我有一个不平衡的数据,我想对多数类执行随机子采样,其中每个子样本的大小与少数类相同......我认为这已经在Weka和 Matlab 上实现了,是否有与此等价的sklearn ?

4

1 回答 1

2

假设您的数据看起来像从这段代码生成的东西:

import numpy as np

x = np.random.randn(100, 3)
y = np.array([int(i % 5 == 0) for i in range(100)])

(只有 1/5y是 1,这是少数类)。

要找到少数类的大小,请执行以下操作:

>>> np.sum(y == 1)
20

要找到包含多数类的子集,请执行以下操作:

majority_x, majority_y = x[y == 0, :], y[y == 0]

要找到大小为 20 的随机子集,请执行以下操作:

inds = np.random.choice(range(majority_x.shape[0]), 20)

其次是

majority_x[inds, :]

majority_y[inds]
于 2016-01-16T16:50:22.733 回答