1

我正在尝试使用众所周知的 Reuters-21578 数据集做一些工作,并且在将 sgm 文件加载到我的语料库时遇到了一些麻烦。

现在我正在使用命令

require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML))

试图将所有文件包含到我的语料库中,但这给了我以下错误:

Error in DirSource(reut21578) : empty directory

知道我哪里可能出错了吗?

4

1 回答 1

6

“tm”包仅包含 Reuters21578 数据的样本。如果您想避免下载、加载和准备所有 22 个 Reuters21578 文件,可以使用包“tm.corpus.Reuters21578”:

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)
于 2015-12-15T17:17:43.620 回答