python-3.x - Py-tables vs Blaze vs S-Frames

Question

我正在使用 python 对一个巨大的数据集（约 2000 万条记录和 10 列）进行探索性数据分析。我将分割、聚合数据并创建一些可视化，我还不如使用该数据集创建一些决策树线性回归模型。

由于数据集很大，我需要使用允许超出核心数据存储的数据框。由于我对 Python 比较陌生并且使用大型数据集，所以我想使用一种方法，让我可以轻松地在我的数据集上使用 sklearn。我很困惑在这个练习中使用 Py-tables、Blaze 或 s-Frame 的天气。如果有人可以帮助我了解他们的优缺点。在这种决策中重要的因素是什么，我们将不胜感激。

score 1 · Accepted Answer

好问题！您可能会考虑的一个选择是不使用上述任何库，而是逐块读取和处理您的文件，如下所示：

csv="""\path\to\file.csv"""

pandas 允许通过文件迭代器从（大）文件中逐块读取数据：

it = pd.read_csv(csv, iterator=True, chunksize=20000000 / 10)

for i, chunk in enumerate(it): ...

python-3.x - Py-tables vs Blaze vs S-Frames

1 回答 1

Related

Reference