3

我希望对许多网站(数百万)进行分类。我可以使用 Nutch 抓取它们并获取网站的内容,但我正在寻找最好的(也是最便宜或免费的)工具来对它们进行分类。

一种选择是创建正则表达式来查找某些关键字并对站点进行分类,但也有像 Autonomy 这样的高端 LSI 类型工具。是否有任何开源或更便宜的工具可以从网页/站点获取文本并为我分类?我需要对使用的类别类型进行一些自定义。作为分类的一部分,我希望能够识别“假”网站,这些网站实际上只是停放的页面,或者在页面上放置广告的域名所有者以及普通的旧类别,比如新闻、体育、科学、健康、美食、娱乐等……

4

0 回答 0