r - R中的TermDocumentMatrix错误

Question

我一直在研究 R 中 {tm} 包的许多在线示例，试图创建一个 TermDocumentMatrix。创建和清理语料库非常简单，但是当我尝试创建矩阵时总是遇到错误。错误是：

UseMethod("meta", x) 中的错误：没有适用于 'meta' 的适用方法应用于“character”类的对象另外：警告消息：在 mclapply(unname(content(x)), termFreq, control) 中：所有计划的核心在用户代码中遇到错误

例如，这里是 Jon Starkweather 的文本挖掘示例中的代码。提前为这么长的代码道歉，但这确实产生了一个可重现的例子。请注意，错误出现在 {tdm} 函数的末尾。

#Read in data
policy.HTML.page <- readLines("http://policy.unt.edu/policy/3-5")

#Obtain text and remove mark-up
policy.HTML.page[186:202]
id.1 <- 3 + which(policy.HTML.page == "                    TOTAL UNIVERSITY        </div>")
id.2 <- id.1 + 5
text.data <- policy.HTML.page[id.1:id.2]
td.1 <- gsub(pattern = "<p>", replacement = "", x = text.data, 
     ignore.case = TRUE, perl = FALSE, fixed = FALSE, useBytes = FALSE)

td.2 <- gsub(pattern = "</p>", replacement = "", x = td.1, ignore.case = TRUE,
     perl = FALSE, fixed = FALSE, useBytes = FALSE)

text.d <- td.2; rm(text.data, td.1, td.2)

#Create corpus and clean 
library(tm)
library(SnowballC)
txt <- VectorSource(text.d); rm(text.d)
txt.corpus <- Corpus(txt)
txt.corpus <- tm_map(txt.corpus, tolower)
txt.corpus <- tm_map(txt.corpus, removeNumbers)
txt.corpus <- tm_map(txt.corpus, removePunctuation)
txt.corpus <- tm_map(txt.corpus, removeWords, stopwords("english"))
txt.corpus <- tm_map(txt.corpus, stripWhitespace); #inspect(docs[1])
txt.corpus <- tm_map(txt.corpus, stemDocument)

# NOTE ERROR WHEN CREATING TDM
tdm <- TermDocumentMatrix(txt.corpus)

score 26 · Accepted Answer

jazzurro 提供的链接指向解决方案。以下代码行

 txt.corpus <- tm_map(txt.corpus, tolower)

必须改为

 txt.corpus <- tm_map(txt.corpus, content_transformer(tolower))

score 5 · Accepted Answer

tm v0.6 中出现此问题的原因有两个。

如果您正在执行诸如tolower等之类的术语级别转换，则tm_map返回字符向量而不是PlainTextDocument.
解决方法:tolower直通电话content_transformer或tm_map(corpus, PlainTextDocument)之后立即拨打电话tolower
如果未安装 SnowballC 软件包，并且您试图阻止文档，那么也可能发生这种情况。
解决方案：install.packages('SnowballC')

score 2 · Accepted Answer

无需应用 content_transformer。

以这种方式创建语料库：

trainData_corpus <- Corpus((VectorSource(trainData$Comments)))

试试看。

r - R中的TermDocumentMatrix错误

3 回答 3

Related

Reference