python - 用 nltk 实现 idf

Question

给定句子：“the quick brown fox jumped over the lazy dog”，我想得到一个 nltk 语料库中每个单词的频率得分（哪个语料库是最通用/最全面的）

编辑：

这个问题与这个问题有关：python nltk keyword extract from sentence where @adi92 建议使用 idf 的技术来计算单词的“稀有度”。我想看看这在实践中会是什么样子。这里更广泛的问题是，你如何计算一个单词在英语中的稀有度。我很欣赏这是一个很难解决的问题，但是 nltk idf （使用诸如 brown 或 reuters 语料库之类的东西？？）可能会让我们成为其中的一部分？

score 1 · Accepted Answer

如果你想知道词频，你需要一个词频表。单词根据文本类型具有不同的频率，因此最佳频率表可能基于特定领域的语料库。

如果你只是在胡闹，很容易随机选择一个语料库并计算单词——使用<corpus>.words()和 nltk's FreqDist，和/或查看 NLTK 书了解详细信息。

但是如果要认真使用，请不要自己计算单词：如果您对特定领域不感兴趣，请获取一个大词频表。那里有数以万计的（显然这是语料库创建者首先想到的），其中最大的可能是 google 编译的“1-gram”表。您可以在http://books.google.com/ngrams/datasets下载它们

python - 用 nltk 实现 idf

1 回答 1

Related

Reference