我可以_redirTo
在 ElasticSearch 的状态索引中看到标签。关于重定向的几个问题如下:
- 重定向有什么限制吗?所以它不应该在重定向循环中结束?
- 特定获取的 URL 有多少重定向?我只能在
_redirTo
标签中看到一个重定向,即直接重定向。如果 URL 有两个或三个重定向,则无法获取重定向计数?
我可以_redirTo
在 ElasticSearch 的状态索引中看到标签。关于重定向的几个问题如下:
_redirTo
标签中看到一个重定向,即直接重定向。如果 URL 有两个或三个重定向,则无法获取重定向计数?您可以从种子中设置深度限制,请参阅MaxDepth URL 过滤器,但不能直接针对连续重定向的数量。
正如您所注意到的,我们只跟踪给定文档被重定向到的 URL。
如果你想控制redirs的数量而不考虑与种子的距离,一种方法是扩展或修改MetadataTransfer或在协议实现中处理redirs,缺点是这不会检查目标URL是否已经获取。
更新有一个名为“redirections.allowed”的配置元素,默认值为true。我刚刚为 SimpleFetcherBolt 推送了一个修复程序,因为它没有得到正确处理。