text-mining - 潜在狄利克雷分配 (LDA) 的文档数量

Question

感谢您花时间看这个问题。我最近从网上抓取了一些文本，并将输出保存为一个大约 300 页的 .txt 文件。我正在尝试实施 LDA 来构建主题，并且熟悉这样做的技术方面。

但是，我的问题是 LDA 使用一个文件还是多个文件是否重要（即，如果我正在检查 200 封电子邮件，我是否需要标记、删除停用词和标点符号，并阻止大文件，然后将每封电子邮件保存为在实现 LDA 之前单独的 .txt 文件，或者我可以在一个文件中完成所有操作吗？

我现在面临的问题是，如果我要将所有内容分解为单独的 .txt 文件，文档的预处理将需要很长时间。有什么建议么？非常感谢。

score 2 · Accepted Answer

这是一个编码站点，由于您的问题中没有任何代码，因此您并没有真正提出适合该站点的问题。这可能就是为什么你直到现在还没有得到任何答案的原因。

也就是说，您可以将单个文本文件输入到R该文本文件中，然后对该文本文件中的每个文档进行预处理并生成主题模型。我已经尝试过两种方式，一个包含许多文档的巨型文件和一个包含多个文档的许多小文件。我发现处理速度的差异非常小。

score 1 · Accepted Answer

嗯，这很重要，因为 LDA 的想法是确定文档主题和主题词的分布。所以它违背了寻找主题词分布概率的整个概念，它本质上告诉我们词 w 由主题 t 生成的概率。

如果我们只有一个文档，那么主题之间就没有区别，因为每个单词都会出现在同一个文档中。

2 回答 2