我试图了解当我们对文本文档 usign 进行矢量化时如何计算 tf 和 idf 分数TfidfVectorizer
。
我正在理解 tf-idf 如何以两种方式排名,我在下面写。
- tf = 根据在此文档中重复的频率对单个单词进行排名,idf = 根据在 scikit 中内置的“类似数据库”的集合中重复的频率对相同的单词进行排名,学习几乎所有可能的单词都被收集到了。在这里,我假设这个内置数据库是语料库。
- tf = 对单个作品在当前正在被 tfidfvectorize 读取的文档的行中重复的频率进行排名,idf = 根据它在被矢量化的整个文档中重复的次数进行排名。
有人可以解释一下我的理解是否正确吗?如果不是,请纠正我理解的错误。