elasticsearch - 聚合弹性搜索中的最后一个文档

Question

我对 ES 有点陌生，我不确定如何执行以下操作：

我使用仅包含几个“应该”参数的查询运行搜索。

然后还有一些聚合，例如百分位数、术语分桶等。

但是对于聚合，我只想要它，例如，聚合前 1000 个文档（我希望然后按分数对其进行评分和排序）。

这个想法是我想要特定术语的 aggs，但如果找不到足够的，则将其填充 - 但仅限于要聚合的特定最大数量。从文档看来，size它返回的文档数量，而不是用于 aggs 的大小（我不需要命中，只返回 aggs）。

那么我该怎么做呢？是否有嵌套/后续查询？我必须pipeline做点什么，例如搜索 1k 文档，然后 agg 吗？

如果文档可以首先按它被索引的时间戳进行排序，那将是理想的 - 这样用于“填充”的文档是最新的 - 但 AFAIK 不可能吗？

填补;填写（表格，资料？

“填写”意味着我有 100 个文档，用于指定一个指定的“应该”字段。然后我仍然需要其他 900 个文档来聚合所需的 1k 结果大小（以便将其填充到所需的数量）。因此，我没有使用过滤器，而是在文档中看到了“组合查询”，我认为使用“应该”参数就足够了。

score 0 · Accepted Answer

解决方案：

        sample = A('sampler', shard_size=docs_per_shard)

为了聚合文档子集，请使用 Sampler 聚合器。这将返回文档的一个子集。它需要一个 shard_size 参数，即每个分片必须返回多少个文档。给出的值是所需文档大小 (100) 除以活动分片 (5)。

        terms = A('terms', field='action')
        sea = GameAction.search()
        sea.aggs.bucket('mesam', sample).bucket('aksies', terms)

有了子样本，现在可以通过管道对其进行聚合。这给出了解决方案，但让它变得更好。

        sea = sea.sort('_score', {'created_at': 'desc'})

这将按分数然后按创建日期对文档进行排序，这意味着将返回最相关的文档，并且将其排序为最近的文档。

此外：

        sea = sea.query('bool', boost=10, should=[Q('match', player=p['name'])])
        sea = sea.query('bool', boost=5, should=[Q('match', vs=vs)])
        sea = sea.query('bool', boost=2, should=[Q('match', phase=phase)])
        sea = sea.query('bool', boost=1, should=[Q('match', site='handhq')])
        sea = sea.query('bool', must=[
            ~Q('match', action='gg') &
            ~Q('match', action='sb') &
            ~Q('match', action='bb')])

这里相关的是should. 这允许文档在匹配或紧密匹配的地方“填充”最相关的文档（并在相同的地方用最新的排序）。这些领域大多是not_analyzed. 此外，它可以得到提升，为问题提供了很好的解决方案。

elasticsearch - 聚合弹性搜索中的最后一个文档

1 回答 1

Related

Reference