我正在尝试对一个非常大的数据集(大约 50,000 个文档和超过 300,000 个单词/术语)运行 LSA 或主成分分析,以降低维度,以便我可以在二维中绘制文档。
我在 Python 和 MATLAB 中尝试过,但由于数据集的体积,我的系统在任一实例中都内存不足并崩溃。有谁知道我可以如何减少负载,或者做某种可以更快更有效地运行的近似 LSA/PCA?我的总体目标是在 300k 单词上进行大幅降维。
我正在尝试对一个非常大的数据集(大约 50,000 个文档和超过 300,000 个单词/术语)运行 LSA 或主成分分析,以降低维度,以便我可以在二维中绘制文档。
我在 Python 和 MATLAB 中尝试过,但由于数据集的体积,我的系统在任一实例中都内存不足并崩溃。有谁知道我可以如何减少负载,或者做某种可以更快更有效地运行的近似 LSA/PCA?我的总体目标是在 300k 单词上进行大幅降维。