matlab - 如何对非常大的数据集进行潜在语义分析

翻译自：https://stackoverflow.com/questions/12194660 2012-08-30T10:19:40.643

1142 次

0

我正在尝试对一个非常大的数据集（大约 50,000 个文档和超过 300,000 个单词/术语）运行 LSA 或主成分分析，以降低维度，以便我可以在二维中绘制文档。

我在 Python 和 MATLAB 中尝试过，但由于数据集的体积，我的系统在任一实例中都内存不足并崩溃。有谁知道我可以如何减少负载，或者做某种可以更快更有效地运行的近似 LSA/PCA？我的总体目标是在 300k 单词上进行大幅降维。

1 回答 1

0

你可以看看Oja 的规则。它定义了一个迭代过程来学习 PCA。现在您只需要实现不要立即从磁盘加载整个数据集，以防止内存过载。

于 2012-08-30T10:33:48.930 回答