r - 在 R 中使用带有“字典”参数的 DocumentTermMatrix

Question

我想使用 R 进行文本分类。我使用 DocumentTermMatrix 返回单词的矩阵：

library(tm)
crude <- "japan korea usa uk albania azerbaijan"
corps <- Corpus(VectorSource(crude))
dtm <- DocumentTermMatrix(corps)
inspect(dtm)

words <- c("australia", "korea", "uganda", "japan", "argentina", "turkey")
test <- DocumentTermMatrix(corps, control=list(dictionary = words))
inspect(test)

第一项inspect(dtm)工作符合预期的结果：

    Terms
Docs albania azerbaijan japan korea usa
   1       1          1     1     1   1

但第二个inspect(test)显示了这个结果：

    Terms
Docs argentina australia japan korea turkey uganda
   1         0         1     0     1      0      0

虽然预期的结果是：

    Terms
Docs argentina australia japan korea turkey uganda
   1         0         0     1     1      0      0

它是一个错误还是我使用错误的方式？

score 1 · Accepted Answer

Corpus() 在索引词频时似乎有一个错误。

请改用 VCorpus()，这将为您提供预期的结果。

r - 在 R 中使用带有“字典”参数的 DocumentTermMatrix

1 回答 1

Related

Reference