1

我是 R 新手,我正在尝试使用 csv 文件创建术语文档矩阵。但结果显示,有些单词最后漏掉了字母“e”。如何使术语文档矩阵显示完整的单词?如果您在看到看起来不正确的部分时也能告诉我,那就太好了。谢谢!

library(tm)
posts<-read.csv("/abcd.csv",header=TRUE)
require(tm)
posts<-Corpus(VectorSource(posts))
library(SnowballC)
Corpus<-tm_map(Corpus,content_transformer(tolower))
Corpus<-tm_map(Corpus,stripWhitespace)
Corpus<-tm_map(Corpus,removeWords,stopwords("english"))
Corpus<-tm_map(Corpus,stemDocument)
inspect(Corpus[9])
tdm<-TermDocumentMatrix(Corpus)
tdm
tdm=as.matrix(TermDocumentMatrix(Corpus,control=list(wordLengths=c(1,Inf))))
tdm
rowSums(tdm)

以下是我在这里看到的文件结果中的一些单词。

导致
停机
故障
中断
无法访问

4

1 回答 1

2

因为您正在使用stemming

词干提取通常会导致最后几个字符被删除。

于 2017-04-07T07:58:07.623 回答