10

我正在使用带有pyes的elasticsearch。我在最后一页的结果中得到了重复。这是我的查询:

"query": {
    "query": {
        "filtered": {
            "filter": {
                "and": [
                    {
                        "match_all": {

                        }
                    }
                ]
            },
            "query": {
                "bool": {
                    "minimum_number_should_match": 1,
                    "should": [
                        {
                            "text": {
                                "name.keyword_name": {
                                    "operator": "and",
                                    "query": "kentucky",
                                    "type": "boolean",
                                    "fuzziness": 0.8
                                }
                            }
                        },
                        {
                            "text": {
                                "address": {
                                    "operator": "and",
                                    "query": "kentucky",
                                    "type": "boolean"
                                }
                            }
                        },
                        {
                            "text": {
                                "neighborhoods.name": {
                                    "operator": "and",
                                    "query": "kentucky",
                                    "type": "boolean",
                                    "fuzziness": 0.8
                                }
                            }
                        },
                        {
                            "text": {
                                "categories.name": {
                                    "operator": "and",
                                    "query": "kentucky",
                                    "type": "boolean",
                                    "fuzziness": 0.8
                                }
                            }
                        }
                    ]
                }
            }
        }
    },
    "facets": {
        "neighborhoods.id": {
            "terms": {
                "field": "neighborhoods.id",
                "size": 10
            }
        },
        "categories.id": {
            "terms": {
                "field": "categories.id",
                "size": 10
            }
        }
    },
    "size": 15,
    "from": 15,
    "fields": [
        "id",
        "categories.id",
        "name",
        "address",
        "city",
        "state",
        "zipcode",
        "location",
        "_id",
        "pos_review_count",
        "neg_review_count",
        "wishlist_count",
        "recommender_count",
        "checkin_count"
    ]
},

在这个查询中,我有

    "size": 15,
    "from": 15,

而且对于这个特定的查询,返回的对象的总计数是 24。“从”为 15,总计数为 24,我想在这里得到 9 个结果。但相反,因为我将“大小”设置为 15,所以我得到 15 个结果条目。由于只剩下 9 个唯一结果,因此将显示 6 个文档两次。关于如何使这个给我9个结果而不是15个重复的任何想法?

谢谢你的帮助!

4

3 回答 3

9

如果你有多个分片上的数据,它可能会返回多次,我不知道为什么。抱歉,这不是很具体,因为我不知道为什么会这样。

尝试使用首选项:http ://www.elastic.co/guide/en/elasticsearch/reference/1.4/search-request-preference.html

我们使用首选项自定义字符串,它修复了我们的重复数据问题。

你的复制设置是什么?数据是否可能在多个分片上?你用的是什么版本?

不幸的是,使用 pyes,您无法在多搜索调用中指定首选项。尝试在搜索调用中将首选项指定为查询参数。

搜索(索引=...,.....,偏好=)

于 2015-05-14T15:48:44.290 回答
6

问题是您正在按在文档中具有重复值的字段(或默认情况下按 _score)进行排序。我的理解是,不同的分片可能以不同的顺序对重复的字段值进行排序。

因此,当您为每个请求获得不同的分片时,您可能会获得不同的排序顺序,因此,您可能会将相同的文档排序到两个不同的页面上(取决于您询问的分片)。

正如上面提到的 TheJeff,解决方法是指定 _search?preference=my-paging-key 以确保每个页面请求使用一致的分片

于 2015-10-05T14:36:43.907 回答
0

只是想在这里分享与此相关的经验,由于多个分片,在使用 from/size 分页参数和搜索查询时,我还在不同的页面中获得了重复的结果。

我尝试了这里记录的一些关于ElasticSearch中的首选项的事情,并且在主分片上执行查询已经为我解决了这个问题。

“偏好”:“_primary_first”

如果你使用的是 python 库,你可以考虑这个参考:

https://elasticsearch-py.readthedocs.io/en/master/api.html#elasticsearch.Elasticsearch.search

于 2020-06-19T07:51:20.693 回答