python - 如何确保我的数据集在类之间均匀分布，即它是分层的，大小和类分布应该是平衡的？

翻译自：https://stackoverflow.com/questions/56795055 2019-06-27T16:12:03.260

208 次

我做了一个简单的 K 折交叉验证代码，现在我想做一些修改，使其在大小和类分布上平衡？

PS：我需要从头开始使用python代码，sklearn是不允许的。

from random import seed
from random import randrange




def cross_validation_split(dataset, folds=3):
    dataset_split = []
    dataset_copy = list(dataset)
    fold_size = int(len(dataset) / folds)
    for i in range(folds):
        fold = []
        while len(fold) < fold_size:
            index = randrange(len(dataset_copy))
            fold.append(dataset_copy.pop(index))
        dataset_split.append(fold)
return dataset_split


seed()
dataset = [1,1,1,2,2,2,3,3,4,4,4]
folds = cross_validation_split(dataset, 2)
print(folds)

结果我得到了这个：[[4, 4, 3, 3, 4], [1, 1, 2, 2, 1]]。

我希望是例如，[[1,3,2,4,4],[1,2,2,4,3]]

python - 如何确保我的数据集在类之间均匀分布，即它是分层的，大小和类分布应该是平衡的？

0 回答 0

Related

Reference