我想知道什么可以用来确定页面与游戏、电影等主题的相关性。
在这方面是否有一些研究,或者只是计算一些相关词出现了多少次?
我想知道什么可以用来确定页面与游戏、电影等主题的相关性。
在这方面是否有一些研究,或者只是计算一些相关词出现了多少次?
常见的选择是对词袋(或 n-gram 袋)特征进行监督文档分类,最好使用 tf-idf 加权。
流行的算法包括朴素贝叶斯和(线性)SVM。
对于这种方法,您需要标记的训练数据,即带有相关主题注释的文档。
参见,例如,Introduction to Information Retrieval,第 13-15 章。