nutch-default.xml 建议有一种方法可以在第一次爬网时保存重定向目标,并在下一次爬网时通过将其设置http.redirect.max
为 0 来爬网。
第一次抓取成功完成,我们可以在存储的段中看到重定向响应。然后我们尝试更新爬网数据库以将重定向目标添加到下一个获取列表中,但我们无法将它们包含在内 - 获取列表似乎大部分是空的,只有几个 nutch 未能在第一次爬。
在解析/更新/生成期间是否需要提供参数/配置?
nutch-default.xml 建议有一种方法可以在第一次爬网时保存重定向目标,并在下一次爬网时通过将其设置http.redirect.max
为 0 来爬网。
第一次抓取成功完成,我们可以在存储的段中看到重定向响应。然后我们尝试更新爬网数据库以将重定向目标添加到下一个获取列表中,但我们无法将它们包含在内 - 获取列表似乎大部分是空的,只有几个 nutch 未能在第一次爬。
在解析/更新/生成期间是否需要提供参数/配置?
必须增加topN 参数,以便在fetchlist 中提取所有 url。第二轮的url选择是基于url的分数...我认为不能修改。