7

我有 X 作为我使用 scikit 的 tfidf 矢量化器获得的 csr_matrix,而 y 是一个数组

我的计划是使用 LDA 创建功能,但是,我找不到如何使用 X 作为 csr_matrix 来初始化 gensim 的语料库变量。换句话说,我不想下载 gensim 文档中显示的语料库,也不想将 X 转换为密集矩阵,因为它会消耗大量内存并且计算机可能会挂起。

简而言之,我的问题如下,

  1. 鉴于我有一个代表整个语料库的 csr_matrix (稀疏),你如何初始化一个 gensim 语料库?
  2. 如何使用 LDA 提取特征?
4

1 回答 1

9

Gensim 有一个半隐藏的功能,可以为你做这件事:

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

“class gensim.matutils.Sparse2Corpus(sparse, documents_columns=True) 将 scipy.sparse 格式的矩阵转换为流式 gensim 语料库。”

我使用 CountVectorizer 提取的语料库取得了一些成功,然后将其加载到 gensim 中。

于 2013-03-28T23:27:52.110 回答