0

我正在操作使用HDFStore对象存储的巨大 DataFrame,该表太大而无法完全加载到内存中,因此我必须逐块提取数据,这对于很多任务来说都很好。

我的问题来了,我想在需要加载整个 DataFrame 的表上应用 PCA,但我没有足够的内存来执行此操作。

PCA 函数将numpy 数组或 pandas DataFrame 作为输入,是否有另一种方法可以应用直接使用存储在磁盘上的对象的 PCA?

非常感谢您,

克莱德X

4

1 回答 1

2

似乎非常适合 scikit-learn 的 0.16 开发分支中的新IncrementalPCA

更新链接到最新的稳定版本

于 2015-01-16T16:21:11.223 回答