我在我的 ES 集群中几乎没有读取过重的索引(开始看到这些索引的性能问题),该集群有大约 5000 万个文档,并注意到其中大多数有大约 25% 的文档被删除,我知道这些删除的文档数量会随着时间的推移而减少当后台合并操作发生时,但在我的情况下,这些计数始终约为总文档的 25%,我有以下问题/疑虑:
- 这些巨大的已删除计数是否会影响搜索性能,因为它们仍然是 lucene 不可变段的一部分,并且搜索发生在所有段上并返回最新版本的文档,因此不可变段的大小会很高,因为它们包含大量已删除docs,然后进行另一个操作以找出最新版本的 doc。
- 如果存在大量已删除的文档,定期合并操作是否会花费大量时间且效率低下?
- 有什么方法可以一次性删除这些大量已删除的文档,因为看起来后台合并操作无法跟上庞大的数量?
谢谢