我知道我们可以在 tf-idf 中使用停用词列表,但是有没有办法只获取单词列表而忽略其他单词?
例如,在这里我声明了一个停用词列表:
vectorizer = TfidfVectorizer(stop_words="english")
如果我只想在句子中考虑cat和dog,我想要这样的东西:
vectorizer = TfidfVectorizer(keep_words=["cat", "dog"])
我的目标是只考虑特定词进行文本聚类?
有解决办法吗?
问问题
236 次