10

I have managed to evaluate the tf-idf function for a given corpus. How can I find the stopwords and the best words for each document? I understand that a low tf-idf for a given word and document means that it is not a good word for selecting that document.

4

2 回答 2

12

停用词是那些在文档中非常常见的词,因此失去了它们的代表性。观察这一点的最佳方法是测量一个术语出现在文档中的数量,并过滤那些出现在其中超过 50% 的文档,或者前 500 个或您必须调整的某种类型的阈值。

文档中最好的(更具代表性的)术语是那些具有较高 tf-idf 的术语,因为这些术语在文档中很常见,而在集合中很少见。

作为一个快速说明,正如@Kevin 指出的那样,集合中非常常见的术语(即停用词)无论如何都会产生非常低的 tf-idf。但是,它们会改变一些计算,如果您假设它们是纯噪声,这将是错误的(根据任务,这可能不是真的)。此外,如果包含它们,您的算法会稍微慢一些。

编辑:正如@FelipeHammel 所说,您可以直接使用IDF(记住反转顺序)作为与df(成反比)成比例的度量。这对于排名目的是完全等效的,因此选择前“k”个术语。但是,不可能使用它来根据比率进行选择(例如,出现在超过 50% 的文档中的单词),尽管一个简单的阈值可以解决这个问题(即,选择 idf 低于特定值的术语) . 通常,使用固定数量的术语。

我希望这有帮助。

于 2013-06-04T21:57:09.563 回答
3

摘自《信息检索导论》一书:

tf-idf为术语分配t文档中的权重,d

  1. t在少数文件中多次出现时最高(因此为这些文件提供了很高的区分能力);
  2. 当文档中term出现的次数较少或出现在许多文档中时较低(从而提供不太明显的相关信号);
  3. term几乎所有文档中都出现这种情况时最低。

所以最低的词tf-idf可以被认为是停用词。

于 2019-10-07T17:21:46.853 回答