0

例如,我正在抓取 1000 个网站。当我为某些网站读取数据库时,它显示 db_redirect_temp 和 db_redirect_moved,如果我设置 http.redirect.max=10 是每个网站的这个值,或者它只处理整个抓取网站的 10 个重定向。

4

1 回答 1

1

http.redirect.max定义为:

尝试获取页面时,获取器将遵循的最大重定向数。如果设置为负数或 0,则 fetcher 不会立即跟踪重定向的 URL,而是会记录它们以供以后获取。

该数字适用于单个网页的重定向。10 是一个非常慷慨的限制,在大多数情况下 3 应该足够了,因为无论如何都会在以后的获取周期之一中尝试重定向目标。请注意,重定向源始终在 CrawlDb 中记录为 db_redir_perm 或 db_redir_temp。

于 2020-10-16T18:34:13.963 回答