Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在操作使用HDFStore对象存储的巨大 DataFrame,该表太大而无法完全加载到内存中,因此我必须逐块提取数据,这对于很多任务来说都很好。
我的问题来了,我想在需要加载整个 DataFrame 的表上应用 PCA,但我没有足够的内存来执行此操作。
PCA 函数将numpy 数组或 pandas DataFrame 作为输入,是否有另一种方法可以应用直接使用存储在磁盘上的对象的 PCA?
非常感谢您,
克莱德X
似乎非常适合 scikit-learn 的 0.16 开发分支中的新IncrementalPCA。
更新:链接到最新的稳定版本