我正在使用“tm”包分析 Reuters 21578 语料库,即 1987 年以来的所有路透社新闻文章。将 XML 文件导入 R 数据文件后,我清理文本——转换为纯文本、转换为小写、删除停用词等(如下所示)——然后我尝试将语料库转换为文档术语矩阵但收到一条错误消息:
UseMethod(“Content”,x)中的错误:没有适用于“内容”的方法应用于“字符”类的对象
在文档术语矩阵之前,所有预处理步骤都可以正常工作。
我创建了语料库的一个非随机子集(包含 4000 个文档),并且文档术语矩阵命令可以正常工作。
我的代码如下。谢谢您的帮助。
##Import
file <- "reut-full.xml"
reuters <- Corpus(ReutersSource(file), readerControl = list(reader = readReut21578XML))
## Convert to Plain Text Documents
reuters <- tm_map(reuters, as.PlainTextDocument)
## Convert to Lower Case
reuters <- tm_map(reuters, tolower)
## Remove Stopwords
reuters <- tm_map(reuters, removeWords, stopwords("english"))
## Remove Punctuations
reuters <- tm_map(reuters, removePunctuation)
## Stemming
reuters <- tm_map(reuters, stemDocument)
## Remove Numbers
reuters <- tm_map(reuters, removeNumbers)
## Eliminating Extra White Spaces
reuters <- tm_map(reuters, stripWhitespace)
## create a term document matrix
dtm <- DocumentTermMatrix(reuters)
Error in UseMethod("Content", x) :
no applicable method for 'Content' applied to an object of class "character"