0

我必须使用创建自定义标记器CountVectorizer(),它将执行以下操作:

  1. 使用 nltk 中的 word_tokenizer 将文本拆分为标记
  2. 删除带有标点符号、数字和标记的标记nltk.corpus.stopwords('russian')
  3. 冲压SnowballStemmer

是否可以仅通过更改参数来完成此任务CountVectorizer

我想创建一个字典,但我认为有一种方法可以使它更容易。

我的尝试:

def custom_token():
    noise = stopwords.words('russian') + list(punctuation) + ??? (what should i take as numerals?)
    return CountVectorizer(ngram_range=(1, 1), lowercase = True, tokenizer = word_tokenize, 
                          stop_words = noise, analyzer = 'word',  )
4

0 回答 0