information-retrieval - How to select stop words using tf-idf? (non english corpus)

Question

I have managed to evaluate the tf-idf function for a given corpus. How can I find the stopwords and the best words for each document? I understand that a low tf-idf for a given word and document means that it is not a good word for selecting that document.

score 12 · Accepted Answer

停用词是那些在文档中非常常见的词，因此失去了它们的代表性。观察这一点的最佳方法是测量一个术语出现在文档中的数量，并过滤那些出现在其中超过 50% 的文档，或者前 500 个或您必须调整的某种类型的阈值。

文档中最好的（更具代表性的）术语是那些具有较高 tf-idf 的术语，因为这些术语在文档中很常见，而在集合中很少见。

作为一个快速说明，正如@Kevin 指出的那样，集合中非常常见的术语（即停用词）无论如何都会产生非常低的 tf-idf。但是，它们会改变一些计算，如果您假设它们是纯噪声，这将是错误的（根据任务，这可能不是真的）。此外，如果包含它们，您的算法会稍微慢一些。

编辑：正如@FelipeHammel 所说，您可以直接使用IDF（记住反转顺序）作为与df（成反比）成比例的度量。这对于排名目的是完全等效的，因此选择前“k”个术语。但是，不可能使用它来根据比率进行选择（例如，出现在超过 50% 的文档中的单词），尽管一个简单的阈值可以解决这个问题（即，选择 idf 低于特定值的术语） . 通常，使用固定数量的术语。

我希望这有帮助。

score 3 · Accepted Answer

摘自《信息检索导论》一书：

tf-idf为术语分配t文档中的权重，d即

t在少数文件中多次出现时最高（因此为这些文件提供了很高的区分能力）；
当文档中term出现的次数较少或出现在许多文档中时较低（从而提供不太明显的相关信号）；
term几乎所有文档中都出现这种情况时最低。

所以最低的词tf-idf可以被认为是停用词。

information-retrieval - How to select stop words using tf-idf? (non english corpus)

2 回答 2

Related

Reference