web-crawler - 在 StormCrawler 中不跟踪 url.path 有什么影响？

Question

我们正在使用StormCrawler并将我们的Status索引存储在 elasticsearch 中。这个索引变得相当大（几乎 30 亿个文档！），所以分片也很大，可以备份等。

我正在考虑删除url.path文档中的元数据数组元素。看起来我可以用metadata.track.path.

如果我不再为此编制索引并删除我拥有的内容，会有什么影响？

score 1 · Accepted Answer

如果您对跟踪如何找到特定 URL 不感兴趣，那么可以，您可以通过将metadata.track.path设置为 false 来节省空间（和一点时间）。您可以立即执行此操作，并且任何新文档都没有相应的字段。

不确定“删除我所拥有的”是什么意思 - 你不能只删除一个字段，你必须删除并重新索引整个文档。

作为一项规则，请确保仅索引您需要的字段。请参阅此自定义版本的 ES 索引初始化脚本，其中“主机名”已从以元数据为前缀的字段中移出，以便可搜索。可用选项取决于您使用的 Elasticsearch 版本。

1 回答 1