感谢您花时间看这个问题。我最近从网上抓取了一些文本,并将输出保存为一个大约 300 页的 .txt 文件。我正在尝试实施 LDA 来构建主题,并且熟悉这样做的技术方面。
但是,我的问题是 LDA 使用一个文件还是多个文件是否重要(即,如果我正在检查 200 封电子邮件,我是否需要标记、删除停用词和标点符号,并阻止大文件,然后将每封电子邮件保存为在实现 LDA 之前单独的 .txt 文件,或者我可以在一个文件中完成所有操作吗?
我现在面临的问题是,如果我要将所有内容分解为单独的 .txt 文件,文档的预处理将需要很长时间。有什么建议么?非常感谢。