1

我知道我们可以在 tf-idf 中使用停用词列表,但是有没有办法只获取单词列表而忽略其他单词?
例如,在这里我声明了一个停用词列表:
vectorizer = TfidfVectorizer(stop_words="english")
如果我只想在句子中考虑catdog,我想要这样的东西:
vectorizer = TfidfVectorizer(keep_words=["cat", "dog"])
我的目标是只考虑特定词进行文本聚类?
有解决办法吗?

4

1 回答 1

0

是的。说你有一个单词数组

words = ['you','me','we']
TfidfVectorizer(vocabulary=words)

您可以使用词汇表参数仅传递选定的单词。

于 2019-01-18T12:16:12.757 回答