r - R text2vec 包中的哈希矢量化器，带有停用词删除选项

Question

我正在使用 R text2vec 包来创建文档术语矩阵。这是我的代码：

library(lime)
library(text2vec) 

# load data
data(train_sentences, package = "lime")  

#
tokens <- train_sentences$text %>%  
   word_tokenizer

it <- itoken(tokens, progressbar = FALSE)

stop_words <- c("in","the","a","at","for","is","am") # stopwords
vocab <- create_vocabulary(it, c(1L, 2L), stopwords = stop_words) %>%   
  prune_vocabulary(term_count_min = 10, doc_proportion_max = 0.2)
vectorizer <- vocab_vectorizer(vocab )

dtm <- create_dtm(it , vectorizer, type = "dgTMatrix")

另一种方法是 hash_vectorizer() 而不是 vocab_vectorizer() 为：

h_vectorizer <- hash_vectorizer(hash_size = 2 ^ 10, ngram = c(1L, 2L))
dtm <- create_dtm(it,h_vectorizer)

但是当我使用 hash_vectorizer 时，没有删除停用词和修剪词汇的选项。在一个研究案例中，hash_vectorizer 对我来说比 vocab_vectorizer 效果更好。我知道可以在创建 dtm 甚至创建令牌时删除停用词。是否有任何其他选项，类似于 vocab_vectorizer 以及它是如何创建的。特别是我对一种也支持类似于 prune_vocabulary() 的修剪词汇的方法感兴趣。

我很欣赏你的回应。谢谢，山姆

score 2 · Accepted Answer

这是不可能的。使用hash_vectorizer和特征散列的全部意义在于避免 hashmap 查找（获取给定单词的索引）。删除停用词本质上是-检查单词是否在停用词集中。通常建议hash_vectorizer仅在您的数据集非常大并且需要大量时间/内存来构建词汇表时使用。否则根据我的经验vocab_vectorizer，prune_vocabulary至少不会表现得更差。

此外，如果您使用hash_vectorizedsmallhash_size它作为降维步骤，因此可以减少数据集的方差。因此，如果您的数据集不是很大，我建议使用vocab_vectorizer和使用prune_vocabulary参数来减少词汇和文档术语矩阵的大小。

r - R text2vec 包中的哈希矢量化器，带有停用词删除选项

1 回答 1

Related

Reference