0

我正在使用 python 对一个巨大的数据集(约 2000 万条记录和 10 列)进行探索性数据分析。我将分割、聚合数据并创建一些可视化,我还不如使用该数据集创建一些决策树线性回归模型。

由于数据集很大,我需要使用允许超出核心数据存储的数据框。由于我对 Python 比较陌生并且使用大型数据集,所以我想使用一种方法,让我可以轻松地在我的数据集上使用 sklearn。我很困惑在这个练习中使用 Py-tables、Blaze 或 s-Frame 的天气。如果有人可以帮助我了解他们的优缺点。在这种决策中重要的因素是什么,我们将不胜感激。

4

1 回答 1

1

好问题!您可能会考虑的一个选择是不使用上述任何库,而是逐块读取和处理您的文件,如下所示:

csv="""\path\to\file.csv"""

pandas 允许通过文件迭代器从(大)文件中逐块读取数据:

it = pd.read_csv(csv, iterator=True, chunksize=20000000 / 10)

for i, chunk in enumerate(it): ...

于 2017-07-21T07:19:55.487 回答