tf-idf - 如何计算 IDF？

Question

谢谢你们在这个网站上帮助过 TF/IDF。它帮助我在 java 中创建 tf-idf 函数。我做了 tf 但我有一个问题。正如他们在 wiki 上写的那样，IDF 可以计算出有多少文档具有该术语。但我很困惑。

例如，这里是字符串“JosAH is great. JoshAH Rocks”，因此 TF 为 2/5，对于 IDF，有 2 个文档，每个文档都包含 JoshAH 术语。那么，我们将只查看该术语是否出现在其他文档中，或者我们将查看它在其他文档中出现的次数？

score 1 · Accepted Answer

我不完全确定你在这里问什么。无论如何，IDF——逆文档频率——的目的是抑制非常频繁项的得分，并提高不频繁项的得分。

在您的两个文档的集合中，“JosAH”的 IDF 将为 0 --- 因为它出现在所有文档中。

score 0 · Accepted Answer

文档频率是“集合中包含一个术语的文档的数量”（来自Introduction to Information Retrieval），所以用你的话来说，前一个选项是“只看那个术语是否出现”。

2 回答 2