0

我正在尝试对一个非常大的数据集(大约 50,000 个文档和超过 300,000 个单词/术语)运行 LSA 或主成分分析,以降低维度,以便我可以在二维中绘制文档。

我在 Python 和 MATLAB 中尝试过,但由于数据集的体积,我的系统在任一实例中都内存不足并崩溃。有谁知道我可以如何减少负载,或者做某种可以更快更有效地运行的近似 LSA/PCA?我的总体目标是在 300k 单词上进行大幅降维。

4

1 回答 1

0

你可以看看Oja 的规则。它定义了一个迭代过程来学习 PCA。现在您只需要实现不要立即从磁盘加载整个数据集,以防止内存过载。

于 2012-08-30T10:33:48.930 回答