1

我正在做一个项目,我需要对网页进行主题和功能分类,如Qi 和 Davison的网页分类:特征和算法 中所述。例如,我可能希望能够判断特定页面是否与音乐有关,以及它是集合(链接列表)还是主题(有关集合中一个特定链接的数据)页面。对于主题分类,我使用DMOZ 目录数据的一个子集,通过抓取标有特定主题的站点作为正例和负例来生成一组训练示例。

我不太清楚适用于功能分类的方法。本质上,我需要一种方法来找到一组按类型标记的 url:集合页面、主题页面等。手动生成一组可能不可行,我希望能够在网页更改时更新分类器有点定期。关于我可以找到用于训练集的标记数据的区域有什么想法吗?

4

1 回答 1

1

回答Google Summer of Code 问题:网络分类数据集 可能会有所帮助。具体来说,请查看此链接:https ://dms.sztaki.hu/en/letoltes/ecmlpkdd-2010-discovery-challenge-data-set

于 2013-05-29T15:41:36.237 回答