1

感谢您花时间看这个问题。我最近从网上抓取了一些文本,并将输出保存为一个大约 300 页的 .txt 文件。我正在尝试实施 LDA 来构建主题,并且熟悉这样做的技术方面。

但是,我的问题是 LDA 使用一个文件还是多个文件是否重要(即,如果我正在检查 200 封电子邮件,我是否需要标记、删除停用词和标点符号,并阻止大文件,然后将每封电子邮件保存为在实现 LDA 之前单独的 .txt 文件,或者我可以在一个文件中完成所有操作吗?

我现在面临的问题是,如果我要将所有内容分解为单独的 .txt 文件,文档的预处理将需要很长时间。有什么建议么?非常感谢。

4

2 回答 2

2

这是一个编码站点,由于您的问题中没有任何代码,因此您并没有真正提出适合该站点的问题。这可能就是为什么你直到现在还没有得到任何答案的原因。

也就是说,您可以将单个文本文件输入到R该文本文件中,然后对该文本文件中的每个文档进行预处理并生成主题模型。我已经尝试过两种方式,一个包含许多文档的巨型文件和一个包含多个文档的许多小文件。我发现处理速度的差异非常小。

于 2013-11-12T08:30:07.193 回答
1

嗯,这很重要,因为 LDA 的想法是确定文档主题和主题词的分布。所以它违背了寻找主题词分布概率的整个概念,它本质上告诉我们词 w 由主题 t 生成的概率。

如果我们只有一个文档,那么主题之间就没有区别,因为每个单词都会出现在同一个文档中。

于 2014-04-03T23:33:39.637 回答