我正在寻找一个代码,它允许我从我的文本语料库中删除自己的停用词,但只能在开头定义它们
示例:在我的包含报纸文章的语料库中,还有额外的 htpps.... 包括互联网链接,我的主题建模不需要这些链接。
我现在想删除所有以“https ...”开头的“单词”
有什么办法可以做到这一点吗?
我正在使用 tm 包进行文本转换,到目前为止还使用了一些自己的停用词。
代码nzz <- SimpleCorpus(DirSource("private"), control = list(language="de"))
nzz <- tm_map(nzz, removePunctuation)
nzz <- tm_map(nzz, removeNumbers)
nzz <- tm_map(nzz, stripWhitespace)
**myStopwords <- c("beispiel","bemerkbar","docs","par",**
**"ipar","neue","zuercher","zeitung","http")**
**nzz <- tm_map(nzz, removeWords, c(stopwords("german"), myStopwords))****