我正在使用 python 对一个巨大的数据集(约 2000 万条记录和 10 列)进行探索性数据分析。我将分割、聚合数据并创建一些可视化,我还不如使用该数据集创建一些决策树线性回归模型。
由于数据集很大,我需要使用允许超出核心数据存储的数据框。由于我对 Python 比较陌生并且使用大型数据集,所以我想使用一种方法,让我可以轻松地在我的数据集上使用 sklearn。我很困惑在这个练习中使用 Py-tables、Blaze 或 s-Frame 的天气。如果有人可以帮助我了解他们的优缺点。在这种决策中重要的因素是什么,我们将不胜感激。