我正在尝试从大量新闻文章中检索主题列表,我打算使用 gensim 使用 LDA 为每个文档提取主题分布。我想知道 gensim 实现 lda 所需的已处理文章的格式以及如何将原始文章转换为该格式。我在维基百科转储上看到了这个关于使用 lda 的链接,但我发现语料库处于处理状态,其格式在任何地方都没有提及
问问题
2321 次
2 回答
3
有一个离线学习步骤和一个在线特征创建步骤。
离线学习
假设你有一个大的语料库,比如维基百科,或者下载了一堆新闻文章。
对于每篇文章/文件:
- 你得到原始文本
- 你将其词形还原。Gensim 有 utils.lemmatize
- 你创建一个字典
- 你创建了一袋单词表示
然后你训练 TF-IDF 模型并将整个语料库转换到 TF-IDF 空间。最后,您在“TF-IDF 语料库”上训练 LDA 模型。
在线的
对于收到的新闻文章,您几乎可以执行相同的操作:
- 词形还原
- 使用字典创建一袋单词表示。
- 使用 TF-IDF 模型将其转换为 TF-IDF 空间
- 将其转换为 LDA 空间。
于 2012-11-21T20:22:42.673 回答