Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
例如,我正在抓取 1000 个网站。当我为某些网站读取数据库时,它显示 db_redirect_temp 和 db_redirect_moved,如果我设置 http.redirect.max=10 是每个网站的这个值,或者它只处理整个抓取网站的 10 个重定向。
http.redirect.max定义为:
尝试获取页面时,获取器将遵循的最大重定向数。如果设置为负数或 0,则 fetcher 不会立即跟踪重定向的 URL,而是会记录它们以供以后获取。
该数字适用于单个网页的重定向。10 是一个非常慷慨的限制,在大多数情况下 3 应该足够了,因为无论如何都会在以后的获取周期之一中尝试重定向目标。请注意,重定向源始终在 CrawlDb 中记录为 db_redir_perm 或 db_redir_temp。