3

我正在尝试从大量新闻文章中检索主题列表,我打算使用 gensim 使用 LDA 为每个文档提取主题分布。我想知道 gensim 实现 lda 所需的已处理文章的格式以及如何将原始文章转换为该格式。我在维基百科转储上看到了这个关于使用 lda 的链接,但我发现语料库处于处理状态,其格式在任何地方都没有提及

4

2 回答 2

4

我不知道我的问题是否正确,但 gensim 支持多个语料库。您可以在此处找到它们的列表。

如果要处理自然语言,则必须先对文本进行标记。您可以在此处按照 gensim 网站上的分步教程进行操作。它解释得很好。

于 2012-04-06T17:33:07.577 回答
3

有一个离线学习步骤和一个在线特征创建步骤。

离线学习

假设你有一个大的语料库,比如维基百科,或者下载了一堆新闻文章。

对于每篇文章/文件:

  1. 你得到原始文本
  2. 你将其词形还原。Gensim 有 utils.lemmatize
  3. 你创建一个字典
  4. 你创建了一袋单词表示

然后你训练 TF-IDF 模型并将整个语料库转换到 TF-IDF 空间。最后,您在“TF-IDF 语料库”上训练 LDA 模型。

在线的

对于收到的新闻文章,您几乎可以执行相同的操作:

  1. 词形还原
  2. 使用字典创建一袋单词表示。
  3. 使用 TF-IDF 模型将其转换为 TF-IDF 空间
  4. 将其转换为 LDA 空间。
于 2012-11-21T20:22:42.673 回答