我有一个从 95 个文档中提取的关键字列表。我想对它们的重要性进行排名,但我只有关键字出现的文档数量以及关键字在所有文档中的最大频率。我正在寻找一个可以提供帮助的排名公式。目前我正在使用IDF,但我想知道是否有更好的公式。
问问题
715 次
2 回答
1
TF-IDF 绝对是一个很好的基础并且易于实现。
添加其他偏见也很常见,例如您的条款在文档中的位置;出现在文档开头的词,或者更好的是,出现在标题中的词往往比出现在中间或结尾的词更相关。
但是您必须记住,选择算法及其偏见还取决于文档的性质。例如,长文档(例如研究论文或书籍)需要位置偏差,但不一定是新闻文章。“IDF”度量也是如此,它必须在内容类型与您的文档相似的大型文档语料库上进行计算。如果您的文档是关于半导体的研究论文,您不希望在“电视和电影”语料库上计算相关性分数。
我的两分钱。
于 2013-01-02T18:38:18.413 回答
1
词频已经通过列出英语(和许多其他语言)中最重要的词来完成,维基词频列表除了电视和电影最常见的词和许多其他词外,还有许多基于最重要和最热门词的列表类型。
如果你喜欢做一些基于单词排名的算法,我建议你不要远离 TF-IDF
在这里你可以找到潜在语义索引算法,这对你来说可能是一种资产。
希望那是你所需要的。
于 2012-12-30T11:41:27.860 回答