9

我用 Nutch 2.1 抓取了一个 URL,然后我想在页面更新后重新抓取它们。我怎样才能做到这一点?我如何知道页面已更新?

4

3 回答 3

6

简直不能。您需要重新抓取页面以控制它是否已更新。因此,根据您的需要,优先考虑页面/域并在一段时间内重新抓取它们。为此,您需要一个作业调度程序,例如Quartz

您需要编写一个比较页面的函数。但是,Nutch 最初将页面保存为索引文件。换句话说,Nutch 会生成新的二进制文件来保存 HTML。我认为无法比较二进制文件,因为 Nutch 将所有爬网结果组合在一个文件中。如果您想以原始 HTML 格式保存页面以进行比较,请参阅我对这个问题的回答。

于 2013-01-10T15:45:08.040 回答
5

您必须安排 ta Job 以触发 Job
但是,Nutch AdaptiveFetchSchedule 应该使您能够抓取和索引页面并检测页面是新的还是更新的,而您不必手动进行。

文章详细描述了相同的内容。

于 2013-01-11T06:05:49.123 回答
2

怎么样http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/

这在讨论:如何重新抓取 nutch

我想知道上述解决方案是否确实有效。我们说话的时候我正在努力。我爬取新闻站点并且他们经常更新他们的首页,所以我需要经常重新抓取索引/首页并获取新发现的链接。

于 2013-01-13T09:50:37.823 回答