1

给定句子:“the quick brown fox jumped over the lazy dog”,我想得到一个 nltk 语料库中每个单词的频率得分(哪个语料库是最通用/最全面的)

编辑:

这个问题与这个问题有关:python nltk keyword extract from sentence where @adi92 建议使用 idf 的技术来计算单词的“稀有度”。我想看看这在实践中会是什么样子。这里更广泛的问题是,你如何计算一个单词在英语中的稀有度。我很欣赏这是一个很难解决的问题,但是 nltk idf (使用诸如 brown 或 reuters 语料库之类的东西??)可能会让我们成为其中的一部分?

4

1 回答 1

1

如果你想知道词频,你需要一个词频表。单词根据文本类型具有不同的频率,因此最佳频率表可能基于特定领域的语料库。

如果你只是在胡闹,很容易随机选择一个语料库并计算单词——使用<corpus>.words()和 nltk's FreqDist,和/或查看 NLTK 书了解详细信息。

但是如果要认真使用,请不要自己计算单词:如果您对特定领域不感兴趣,请获取一个大词频表。那里有数以万计的(显然这是语料库创建者首先想到的),其中最大的可能是 google 编译的“1-gram”表。您可以在http://books.google.com/ngrams/datasets下载它们

于 2012-07-18T20:49:17.583 回答