-1

我是一个初学者,需要一些关于可能是一个非常基本的问题的指导,但对我来说却无法解决:

我正在研究一个超过 1000 万行的 Kaggle 数据集,并希望对其进行采样以进入适当的 EDA。我见过几个人在.read_csv方法中简单地添加了一个nrows参数,但是在任意点切割它会不会是低效的采样,因此会偏向任何结果?

.sample方法使用了一个简单的随机化器,我觉得它无法捕捉到不同比例的类别。什么是更好的抽样选择?

4

1 回答 1

0

如果这是监督学习(即您有数据标签),您可以使用

train_X, test_X, train_Y, test_Y = train_test_split(data, label, test_size = 0.2, random_state = 138,shuffle=True,stratify=label)


分层将允许您在最终数据集中保持每个类的相同比例

于 2019-08-02T14:33:20.257 回答