0

有人知道使用 Python 和 NLTK 获取最接近搜索查询的文章的简单方法吗?例如,我想从 Wikipedia 中获取 10 篇文章,找到每篇文章的频率分布(以及另一种分类方法,如果您有任何建议),然后根据搜索查询,返回您最有可能的文章可能是指。

有任何想法吗?我想要一个比频率分布更好的方法,但我想我会从那里开始。

4

1 回答 1

2

Rocchio 的算法 aka TFxIDF aka aka tf-idf aka tfidf aka even tf/idf (sic) 几乎是标准解决方案。您可以计算整个文档集的词频,而不是直接计算词频,然后将词的权重表示为文档的词频除以总频数。这样,您就不需要停用词,因为普通词的 IDF 会使它的权重几乎为零。

于 2012-08-07T08:43:28.580 回答