假设有一个网站 abc.com,我们抓取 abc.com 的 100 个页面如下。
第 1 天:通过将 maxDocumentsToDownload 指定为 100 在 heritrix 中创建爬网作业 第 2 天:在 heritrix 中克隆上述作业并运行。
如果网站在两天内没有变化,我会得到相同的 100 页还是不同的 100 页?
如果需要更多信息,请告诉我
谢谢,哈雷什
假设有一个网站 abc.com,我们抓取 abc.com 的 100 个页面如下。
第 1 天:通过将 maxDocumentsToDownload 指定为 100 在 heritrix 中创建爬网作业 第 2 天:在 heritrix 中克隆上述作业并运行。
如果网站在两天内没有变化,我会得到相同的 100 页还是不同的 100 页?
如果需要更多信息,请告诉我
谢谢,哈雷什