apache - 使用 Nutch 重新抓取 URL 仅用于更新的站点

Question

我用 Nutch 2.1 抓取了一个 URL，然后我想在页面更新后重新抓取它们。我怎样才能做到这一点？我如何知道页面已更新？

score 6 · Accepted Answer

简直不能。您需要重新抓取页面以控制它是否已更新。因此，根据您的需要，优先考虑页面/域并在一段时间内重新抓取它们。为此，您需要一个作业调度程序，例如Quartz。

您需要编写一个比较页面的函数。但是，Nutch 最初将页面保存为索引文件。换句话说，Nutch 会生成新的二进制文件来保存 HTML。我认为无法比较二进制文件，因为 Nutch 将所有爬网结果组合在一个文件中。如果您想以原始 HTML 格式保存页面以进行比较，请参阅我对这个问题的回答。

score 5 · Accepted Answer

您必须安排 ta Job 以触发 Job
但是，Nutch AdaptiveFetchSchedule 应该使您能够抓取和索引页面并检测页面是新的还是更新的，而您不必手动进行。

文章详细描述了相同的内容。

score 2 · Accepted Answer

我想知道上述解决方案是否确实有效。我们说话的时候我正在努力。我爬取新闻站点并且他们经常更新他们的首页，所以我需要经常重新抓取索引/首页并获取新发现的链接。

3 回答 3