0

我正在使用该tm库构建一个术语文档矩阵。

# Create corpus.
corporize <- function(dir_to_corporize)
{
    crp <- Corpus(DirSource(dir_to_corporize, mode="text", encoding="ASCII"),
                 readerControl=list(reader=readPlain, language="en_EN"))
    crp <- tm_map(crp, removeWords, stopwords("english"))
    crp <- tm_map(crp, removePunctuation, preserve_intra_word_dashes=F)
    crp <- tm_map(crp, removeNumbers)
    crp <- tm_map(crp, stripWhitespace)
    crp <- tm_map(crp, content_transformer(tolower))
}

然而,当我检查我的术语文档矩阵时,我发现还有几个停用词:

the last time i saw
we need talk about kevin
you make me feel like

为什么会这样,我该怎么办?

4

1 回答 1

1

您的命令顺序在您的功能中是错误的。如果您通过命令查看停用词列表,stopwords()您会看到所有停用词都是小写的。在删除停用词之前,您应该首先将所有内容转换为小写,否则您将保留诸如“I”之类的词或句子开头的词。

于 2015-08-20T07:39:08.627 回答