我是一个初学者,需要一些关于可能是一个非常基本的问题的指导,但对我来说却无法解决:
我正在研究一个超过 1000 万行的 Kaggle 数据集,并希望对其进行采样以进入适当的 EDA。我见过几个人在.read_csv方法中简单地添加了一个nrows参数,但是在任意点切割它会不会是低效的采样,因此会偏向任何结果?
.sample方法使用了一个简单的随机化器,我觉得它无法捕捉到不同比例的类别。什么是更好的抽样选择?
我是一个初学者,需要一些关于可能是一个非常基本的问题的指导,但对我来说却无法解决:
我正在研究一个超过 1000 万行的 Kaggle 数据集,并希望对其进行采样以进入适当的 EDA。我见过几个人在.read_csv方法中简单地添加了一个nrows参数,但是在任意点切割它会不会是低效的采样,因此会偏向任何结果?
.sample方法使用了一个简单的随机化器,我觉得它无法捕捉到不同比例的类别。什么是更好的抽样选择?