1

我有一个包含 4000 万行(约 8Mb)的数据集,而每行都是浮点类型。我想使用 sklearn 内核密度估计来拟合这个数据集和高斯内核。但它在我的电脑上太慢了(4GB RAM,256GB SSD)。那么,sklearn kde 可以处理百万甚至更多样本的数据集吗?

4

1 回答 1

1

是的,sci-kit 可以处理大量数据。但正如您发现的那样,可能是您的机器不够用。或者,您可能需要更好地使用该软件。阅读计算扩展策略:来自 sci-kit 文档的更大数据。

编辑:交叉验证上大型数据集的密度估计非常相关。

于 2014-11-10T12:02:57.157 回答