我已经设置 Nutch 1.17 来抓取几千个域,只使用内链抓取。我的主要要求之一是我应该一次又一次地访问主页(让我们说 2 小时后),如果有任何新页面,那么只有那个应该被抓取。
最好的方法应该是什么?我正在考虑一次又一次地爬取运行注入器作业以爬取主页。这是正确的方法吗?同时,我应该如何确保链接也会随着时间的推移而获取。
我已经设置 Nutch 1.17 来抓取几千个域,只使用内链抓取。我的主要要求之一是我应该一次又一次地访问主页(让我们说 2 小时后),如果有任何新页面,那么只有那个应该被抓取。
最好的方法应该是什么?我正在考虑一次又一次地爬取运行注入器作业以爬取主页。这是正确的方法吗?同时,我应该如何确保链接也会随着时间的推移而获取。