我必须使用创建自定义标记器CountVectorizer()
,它将执行以下操作:
- 使用 nltk 中的 word_tokenizer 将文本拆分为标记
- 删除带有标点符号、数字和标记的标记
nltk.corpus.stopwords('russian')
- 冲压
SnowballStemmer
是否可以仅通过更改参数来完成此任务CountVectorizer
?
我想创建一个字典,但我认为有一种方法可以使它更容易。
我的尝试:
def custom_token():
noise = stopwords.words('russian') + list(punctuation) + ??? (what should i take as numerals?)
return CountVectorizer(ngram_range=(1, 1), lowercase = True, tokenizer = word_tokenize,
stop_words = noise, analyzer = 'word', )