r - 为什么我错过了术语文档矩阵中的最后一个字母？

Question

我是 R 新手，我正在尝试使用 csv 文件创建术语文档矩阵。但结果显示，有些单词最后漏掉了字母“e”。如何使术语文档矩阵显示完整的单词？如果您在看到看起来不正确的部分时也能告诉我，那就太好了。谢谢！

library(tm)
posts<-read.csv("/abcd.csv",header=TRUE)
require(tm)
posts<-Corpus(VectorSource(posts))
library(SnowballC)
Corpus<-tm_map(Corpus,content_transformer(tolower))
Corpus<-tm_map(Corpus,stripWhitespace)
Corpus<-tm_map(Corpus,removeWords,stopwords("english"))
Corpus<-tm_map(Corpus,stemDocument)
inspect(Corpus[9])
tdm<-TermDocumentMatrix(Corpus)
tdm
tdm=as.matrix(TermDocumentMatrix(Corpus,control=list(wordLengths=c(1,Inf))))
tdm
rowSums(tdm)

以下是我在这里看到的文件结果中的一些单词。

导致
停机
故障
中断
无法访问

score 2 · Accepted Answer

2

因为您正在使用stemming。

词干提取通常会导致最后几个字符被删除。

于 2017-04-07T07:58:07.623 回答

r - 为什么我错过了术语文档矩阵中的最后一个字母？

1 回答 1

Related

Reference