1

我想知道什么可以用来确定页面与游戏、电影等主题的相关性。

在这方面是否有一些研究,或者只是计算一些相关词出现了多少次?

4

1 回答 1

5

常见的选择是对词袋(或 n-gram 袋)特征进行监督文档分类,最好使用 tf-idf 加权。

流行的算法包括朴素贝叶斯和(线性)SVM。

对于这种方法,您需要标记的训练数据,即带有相关主题注释的文档。

参见,例如,Introduction to Information Retrieval,第 13-15 章。

于 2012-01-16T12:51:26.470 回答