我正在尝试识别一组政府文件中的重要术语。生成术语频率是没有问题的。
对于文档频率,我希望使用Peter Norvig 在他的“美丽数据”一章中发布的方便的 Python 脚本和随附数据,其中包括来自 Web 的大量数据集中一元词的频率。
然而,我对 tf-idf 的理解是,“文档频率”是指包含一个词条的文档的数量,而不是这个词条的总词数,这是我们从 Norvig 脚本中得到的。我还能将这些数据用于粗略的 tf-idf 操作吗?
以下是一些示例数据:
word tf global frequency
china 1684 0.000121447
the 352385 0.022573582
economy 6602 0.0000451130774123
and 160794 0.012681757
iran 2779 0.0000231482902018
romney 1159 0.000000678497795593
简单地将 tf 除以 gf 可以得到比“economy”更高的分数,这不可能。也许我缺少一些基本的数学?