我有以两种不同格式存储的文本数据 - 作为数据框和一系列文件夹(由于存储类型,我不确定我能否以可重现的格式发布此问题)。
我可以从下面这些不同的文本源中创建一个语料库,但想知道如何使用 R 中的 topicmodels 包将它们组合成一个语料库?
我已经执行了:
dataA<- Corpus(DirSource(foldersA), readerControl = list(language = "eng"))
dataB<- Corpus(DataframeSource(dataframeB),readerControl = list(language = "eng"))
但是想将它们组合成一个统一的语料库。