谢谢你们在这个网站上帮助过 TF/IDF。它帮助我在 java 中创建 tf-idf 函数。我做了 tf 但我有一个问题。正如他们在 wiki 上写的那样,IDF 可以计算出有多少文档具有该术语。但我很困惑。
例如,这里是字符串“JosAH is great. JoshAH Rocks”,因此 TF 为 2/5,对于 IDF,有 2 个文档,每个文档都包含 JoshAH 术语。那么,我们将只查看该术语是否出现在其他文档中,或者我们将查看它在其他文档中出现的次数?
谢谢你们在这个网站上帮助过 TF/IDF。它帮助我在 java 中创建 tf-idf 函数。我做了 tf 但我有一个问题。正如他们在 wiki 上写的那样,IDF 可以计算出有多少文档具有该术语。但我很困惑。
例如,这里是字符串“JosAH is great. JoshAH Rocks”,因此 TF 为 2/5,对于 IDF,有 2 个文档,每个文档都包含 JoshAH 术语。那么,我们将只查看该术语是否出现在其他文档中,或者我们将查看它在其他文档中出现的次数?
我不完全确定你在这里问什么。无论如何,IDF——逆文档频率——的目的是抑制非常频繁项的得分,并提高不频繁项的得分。
在您的两个文档的集合中,“JosAH”的 IDF 将为 0 --- 因为它出现在所有文档中。
文档频率是“集合中包含一个术语的文档的数量”(来自Introduction to Information Retrieval),所以用你的话来说,前一个选项是“只看那个术语是否出现”。