由于在 quanteda 中没有现成的波兰语停用词实现,我想使用我自己的列表。我把它放在一个文本文件中,作为一个用空格分隔的列表。如果需要,我还可以准备一个由新行分隔的列表。
如何从我的语料库中删除自定义的长长的停用词列表?干了之后怎么办?
我尝试过创建各种格式,转换为字符串向量,如
stopwordsPL <- as.character(readtext("polish.stopwords.txt",encoding = "UTF-8"))
stopwordsPL <- read.txt("polish.stopwords.txt",encoding = "UTF-8",stringsAsFactors = F))
stopwordsPL <- dictionary(stopwordsPL)
我也尝试在语法中使用这样的词向量
myStemMat <-
dfm(
mycorpus,
remove = as.vector(stopwordsPL),
stem = FALSE,
remove_punct = TRUE,
ngrams=c(1,3)
)
dfm_trim(myStemMat, sparsity = stopwordsPL)
或者
myStemMat <- dfm_remove(myStemMat,features = as.data.frame(stopwordsPL))
没有任何效果。我的停用词出现在语料库和分析中。应用自定义停用词的正确方法/语法应该是什么?