kernel - sklearn 可以通过核密度估计处理多少数据

翻译自：https://stackoverflow.com/questions/26843212 2014-11-10T11:51:23.600

999 次

1

我有一个包含 4000 万行（约 8Mb）的数据集，而每行都是浮点类型。我想使用 sklearn 内核密度估计来拟合这个数据集和高斯内核。但它在我的电脑上太慢了（4GB RAM，256GB SSD）。那么，sklearn kde 可以处理百万甚至更多样本的数据集吗？

1 回答 1

1

是的，sci-kit 可以处理大量数据。但正如您发现的那样，可能是您的机器不够用。或者，您可能需要更好地使用该软件。阅读计算扩展策略：来自 sci-kit 文档的更大数据。

编辑：交叉验证上大型数据集的密度估计非常相关。

于 2014-11-10T12:02:57.157 回答