我正在做一个项目,我需要对网页进行主题和功能分类,如Qi 和 Davison的网页分类:特征和算法 中所述。例如,我可能希望能够判断特定页面是否与音乐有关,以及它是集合(链接列表)还是主题(有关集合中一个特定链接的数据)页面。对于主题分类,我使用DMOZ 目录数据的一个子集,通过抓取标有特定主题的站点作为正例和负例来生成一组训练示例。
我不太清楚适用于功能分类的方法。本质上,我需要一种方法来找到一组按类型标记的 url:集合页面、主题页面等。手动生成一组可能不可行,我希望能够在网页更改时更新分类器有点定期。关于我可以找到用于训练集的标记数据的区域有什么想法吗?