0

假设有一个网站 abc.com,我们抓取 abc.com 的 100 个页面如下。

第 1 天:通过将 maxDocumentsToDownload 指定为 100 在 heritrix 中创建爬网作业 第 2 天:在 heritrix 中克隆上述作业并运行。

如果网站在两天内没有变化,我会得到相同的 100 页还是不同的 100 页?

如果需要更多信息,请告诉我

谢谢,哈雷什

4

1 回答 1

0

在第二天克隆作业后,除非网站(网页)更新,否则它将基本上下载相同的页面集。另一方面,在运行作业时,Heritrix 尽量不要两次抓取同一页面。因为 abc.com 和 abc.com/index 可能指向同一个 webp

于 2016-02-03T13:30:52.617 回答