python - 如何使用 csr_matrix 初始化 gensim 语料库变量？

Question

我有 X 作为我使用 scikit 的 tfidf 矢量化器获得的 csr_matrix，而 y 是一个数组

我的计划是使用 LDA 创建功能，但是，我找不到如何使用 X 作为 csr_matrix 来初始化 gensim 的语料库变量。换句话说，我不想下载 gensim 文档中显示的语料库，也不想将 X 转换为密集矩阵，因为它会消耗大量内存并且计算机可能会挂起。

简而言之，我的问题如下，

score 9 · Accepted Answer

Gensim 有一个半隐藏的功能，可以为你做这件事：

“class gensim.matutils.Sparse2Corpus(sparse, documents_columns=True) 将 scipy.sparse 格式的矩阵转换为流式 gensim 语料库。”

我使用 CountVectorizer 提取的语料库取得了一些成功，然后将其加载到 gensim 中。

1 回答 1