calendar - 如何配置 Nutch 避免爬取胡说八道的日历网页

Question

我正在使用 Nutch 来索引一个网站。我注意到 Nutch 抓取了一些垃圾网页，例如 http:// * ** * ** /category/events/2015-11。这个网页是关于2015年发生的事件，11。这对我来说完全是胡说八道。我想知道 Nutch 是否可以智能地跳过此类网页。有人可能会说我可以使用正则表达式来避免这种情况。但是，由于日历网页的命名模式一直不尽相同，因此无法为此编写完美的Regex。我知道 Heritrix（一个互联网档案爬虫）有这样的能力来避免爬取无意义的日历网页。有没有人解决这个问题？

score 1 · Accepted Answer

除了正则表达式 url 过滤之外，没有其他方法可以做到这一点。每当您看到不需要的页面通过爬网内容时，您都可以继续向正则表达式文件添加新模式。

calendar - 如何配置 Nutch 避免爬取胡说八道的日历网页

1 回答 1

Related

Reference