0

我正在使用 Nutch 来索引一个网站。我注意到 Nutch 抓取了一些垃圾网页,例如 http:// * ** * ** /category/events/2015-11。这个网页是关于2015年发生的事件,11。这对我来说完全是胡说八道。我想知道 Nutch 是否可以智能地跳过此类网页。有人可能会说我可以使用正则表达式来避免这种情况。但是,由于日历网页的命名模式一直不尽相同,因此无法为此编写完美的Regex。我知道 Heritrix(一个互联网档案爬虫)有这样的能力来避免爬取无意义的日历网页。有没有人解决这个问题?

4

1 回答 1

1

除了正则表达式 url 过滤之外,没有其他方法可以做到这一点。每当您看到不需要的页面通过爬网内容时,您都可以继续向正则表达式文件添加新模式。

于 2012-05-06T01:23:17.870 回答