我有一个冗长的 txt 文件(每个文件大约 20.000-30.000 个字)的语料库(622 个文档),我正在尝试在 R 中探索。我已经使用 tm 包进行了一些基本的文本挖掘,并想深入研究主题现在建模。但是,由于对此非常陌生,我已经在为数据准备的一些基础知识而苦苦挣扎。此处提供了我当前正在使用的文件示例:http: //s000.tinyupload.com/? file_id=46554569218218543610
我假设只是将这些冗长的文档输入主题建模工具是没有意义的。所以我想把它们分成段落(或者可能是 300-500 个单词的集合,因为我的数据中有很多多余的段落中断和 OCR 错误)。您会在 VCorpus 中执行此操作,还是我应该实际划分我的源文件(例如使用 shell 脚本)?有什么建议或经验吗?
文本来自 OCR 的杂志文章,所以如果我将文档拆分,我想我应该在这些段落中添加一个元数据标签,告诉我它最初来自哪个问题(基本上只是原始文件名),正确? 有没有办法轻松做到这一点?
一般来说,任何人都可以推荐一个很好的 R 主题建模的实践介绍吗?实际上,一个像三年级学生一样手把手教我的教程会很棒。我正在使用“topicmodels”和“lda”的文档,但是对于新手来说学习曲线相当陡峭。 编辑:为了清楚起见,我已经阅读了很多关于主题建模的流行介绍(例如Scott Weingart 和历史学家的 MALLET 教程)。我在想一些特定于 R 中的过程的东西。
希望这些问题不是完全多余的。感谢您花时间阅读!