我用 Nutch 2.1 抓取了一个 URL,然后我想在页面更新后重新抓取它们。我怎样才能做到这一点?我如何知道页面已更新?
问问题
4233 次
3 回答
5
您必须安排 ta Job 以触发 Job
但是,Nutch AdaptiveFetchSchedule 应该使您能够抓取和索引页面并检测页面是新的还是更新的,而您不必手动进行。
文章详细描述了相同的内容。
于 2013-01-11T06:05:49.123 回答
2
怎么样http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/
这在讨论:如何重新抓取 nutch
我想知道上述解决方案是否确实有效。我们说话的时候我正在努力。我爬取新闻站点并且他们经常更新他们的首页,所以我需要经常重新抓取索引/首页并获取新发现的链接。
于 2013-01-13T09:50:37.823 回答