java - Nutch-Hadoop:- 我们如何只抓取 url 中的更新以进行重新抓取？

Question

请任何人告诉我如何识别要重新抓取的 url 中的更新？当页面要重新抓取时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前致谢。普拉亚..

score 1 · Accepted Answer

我认为您的意思是，只有在服务器端修改了内容时，您才想重新抓取 url。您希望 nutch 识别它，从而明智地决定是否获取内容。

Nutch 有这样的概念，即维护页面的“最后修改”时间，并且在重新抓取页面时将其存储并且不投入使用。他们知道这会节省磁盘空间和带宽，但由于其他小东西，它没有引起人们的兴趣。人们提出了这个问题，但我仍然没有看到 nutch 开发团队的任何活动。已努力改进，我仍然不确定当前版本使用“最后修改”字段的精确程度。

score 1 · Accepted Answer

您不能告诉 nutch 只获取页面的更新内容而忘记其余未更改的数据。每次都会得到完整的内容。您可以巧妙地设置重新抓取频率，以便页面在更新后重新抓取。

java - Nutch-Hadoop:- 我们如何只抓取 url 中的更新以进行重新抓取？

2 回答 2

Related

Reference