我有 X 作为我使用 scikit 的 tfidf 矢量化器获得的 csr_matrix,而 y 是一个数组
我的计划是使用 LDA 创建功能,但是,我找不到如何使用 X 作为 csr_matrix 来初始化 gensim 的语料库变量。换句话说,我不想下载 gensim 文档中显示的语料库,也不想将 X 转换为密集矩阵,因为它会消耗大量内存并且计算机可能会挂起。
简而言之,我的问题如下,
- 鉴于我有一个代表整个语料库的 csr_matrix (稀疏),你如何初始化一个 gensim 语料库?
- 如何使用 LDA 提取特征?