在text2vec
包中,我使用 create_vocabulary 函数。例如:我的文本是“这本书非常好”,假设我没有使用停用词和 1L 到 3L 的 ngram。所以词汇术语将是
这本书,非常非常好,这本书……这本书非常非常好。我只想删除术语“书非常”(以及使用向量的许多其他术语)。因为我只想删除一个短语,所以我不能使用停用词。我编写了以下代码:
vocab<-create_vocabulary(it,ngram=c(1L,3L))
vocab_mod<- subset(vocab,!(term %in% stp) # where stp is stop phrases.
x<- read.csv(Filename') #these are all stop phrases
stp<-as.vector(x$term)
当我执行上述步骤时,属性中的元信息会在 vocab_mod 中丢失,因此无法在create_dtm
.