我们正在使用StormCrawler并将我们的Status
索引存储在 elasticsearch 中。这个索引变得相当大(几乎 30 亿个文档!),所以分片也很大,可以备份等。
我正在考虑删除url.path
文档中的元数据数组元素。看起来我可以用metadata.track.path
.
如果我不再为此编制索引并删除我拥有的内容,会有什么影响?
我们正在使用StormCrawler并将我们的Status
索引存储在 elasticsearch 中。这个索引变得相当大(几乎 30 亿个文档!),所以分片也很大,可以备份等。
我正在考虑删除url.path
文档中的元数据数组元素。看起来我可以用metadata.track.path
.
如果我不再为此编制索引并删除我拥有的内容,会有什么影响?
如果您对跟踪如何找到特定 URL 不感兴趣,那么可以,您可以通过将metadata.track.path设置为 false 来节省空间(和一点时间)。您可以立即执行此操作,并且任何新文档都没有相应的字段。
不确定“删除我所拥有的”是什么意思 - 你不能只删除一个字段,你必须删除并重新索引整个文档。
作为一项规则,请确保仅索引您需要的字段。请参阅此自定义版本的 ES 索引初始化脚本,其中“主机名”已从以元数据为前缀的字段中移出,以便可搜索。可用选项取决于您使用的 Elasticsearch 版本。