我已经构建了一个 TfidfVectorizer 并将其拟合到我的数据集
tfidf = TfidfVectorizer(tokenizer=ner_tokenizer, stop_words='english')
tfidf.fit(documents)
我现在想tfidf.transform()
在多个线程中做。这样做安全吗?
我已经构建了一个 TfidfVectorizer 并将其拟合到我的数据集
tfidf = TfidfVectorizer(tokenizer=ner_tokenizer, stop_words='english')
tfidf.fit(documents)
我现在想tfidf.transform()
在多个线程中做。这样做安全吗?
据我所知,transform
只读取self
但不修改它,所以它应该是线程安全的。
transform()
在不修改的更深层次上调用,TfidfTransformer.transform()
和间接,CountVectorizer.transform()
和更多。可能还有一些魔法在发生,但我什么也找不到。check_is_fitted()
CountVectorizer._validate_vocabulary()
CountVectorizer._check_vocabulary()
CountVectorizer._count_vocab()
normalize()