1

我对 ES 有点陌生,我不确定如何执行以下操作:

我使用仅包含几个“应该”参数的查询运行搜索。

然后还有一些聚合,例如百分位数、术语分桶等。

但是对于聚合,我只想要它,例如,聚合前 1000 个文档(我希望然后按分数对其进行评分和排序)。

这个想法是我想要特定术语的 aggs,但如果找不到足够的,则将其填充 - 但仅限于要聚合的特定最大数量。从文档看来,size它返回的文档数量,而不是用于 aggs 的大小(我不需要命中,只返回 aggs)。

那么我该怎么做呢?是否有嵌套/后续查询?我必须pipeline做点什么,例如搜索 1k 文档,然后 agg 吗?

如果文档可以首先按它被索引的时间戳进行排序,那将是理想的 - 这样用于“填充”的文档是最新的 - 但 AFAIK 不可能吗?

填补;填写(表格,资料?

“填写”意味着我有 100 个文档,用于指定一个指定的“应该”字段。然后我仍然需要其他 900 个文档来聚合所需的 1k 结果大小(以便将其填充到所需的数量)。因此,我没有使用过滤器,而是在文档中看到了“组合查询”,我认为使用“应该”参数就足够了。

4

1 回答 1

0

解决方案:

        sample = A('sampler', shard_size=docs_per_shard)

为了聚合文档子集,请使用 Sampler 聚合器。这将返回文档的一个子集。它需要一个 shard_size 参数,即每个分片必须返回多少个文档。给出的值是所需文档大小 (100) 除以活动分片 (5)。

        terms = A('terms', field='action')
        sea = GameAction.search()
        sea.aggs.bucket('mesam', sample).bucket('aksies', terms)

有了子样本,现在可以通过管道对其进行聚合。这给出了解决方案,但让它变得更好。

        sea = sea.sort('_score', {'created_at': 'desc'})

这将按分数然后按创建日期对文档进行排序,这意味着将返回最相关的文档,并且将其排序为最近的文档。

此外:

        sea = sea.query('bool', boost=10, should=[Q('match', player=p['name'])])
        sea = sea.query('bool', boost=5, should=[Q('match', vs=vs)])
        sea = sea.query('bool', boost=2, should=[Q('match', phase=phase)])
        sea = sea.query('bool', boost=1, should=[Q('match', site='handhq')])
        sea = sea.query('bool', must=[
            ~Q('match', action='gg') &
            ~Q('match', action='sb') &
            ~Q('match', action='bb')])

这里相关的是should. 这允许文档在匹配或紧密匹配的地方“填充”最相关的文档(并在相同的地方用最新的排序)。这些领域大多是not_analyzed. 此外,它可以得到提升,为问题提供了很好的解决方案。

于 2016-10-26T05:48:12.843 回答