elasticsearch - Elasticsearch 优先排序较短/不太相关的标题

Question

我正在使用 Elasticsearch 7.3 进行产品搜索。产品标题的格式不同，但我对此无能为力。

有些标题可能如下所示：

Ford Hub Bearing

和其他这样的：

Hub bearing for a Chevrolet Z71 - model number 5528923-01

如果有人搜索“雪佛兰轮毂轴承”，“福特轮毂轴承”产品排名第一，雪佛兰零件排名第二。如果我从产品标题中删除所有额外的文本（型号 5528923-01），雪佛兰零件会根据需要排名第一。

不幸的是，我无法修复产品标题，因此当有人搜索时，我需要能够将雪佛兰零件列为#1 Chevrolet Hub Bearing。我只是将类型设置name为并在我的索引中text应用了分析器。standard这是我的查询代码：

{
    query:{

        bool: {
            must: [
                {
                    multi_match:{
                        fields: 
                            [
                               'name'
                             ],
                             query: "Chevrolet Hub Bearing"
                    }
                 }                  
            ]
        }

    }         
}

score 3 · Accepted Answer

Elasticsearch 使用 BM25 算法的评分公式中的字段长度。这就是为什么较长的文档即使匹配更多的术语也会排在第二位的原因。

我建议您阅读有关 BM25 的精彩博客文章： how-shards-affect-relevance-scoring-in- elasticsearch 和 the-bm25-algorithm-and-its-variables

但是您可以调整 bm25 算法来避免这种行为。这是elasticsearch的bm25文档，这里是解释如何做的帖子

基于 TF/IDF 的相似性具有内置的 tf 规范化，应该更适合短字段（如名称）。有关详细信息，请参阅 Okapi_BM25。这种相似性有以下选择：

k1 => 控制非线性项频率归一化（饱和度）。默认值为 1.2。

b => 控制文档长度标准化 tf 值的程度。默认值为 0.75。

discount_overlaps => 确定在计算 norm 时是否忽略重叠标记（位置增量为 0 的标记）。默认情况下这是真的，这意味着在计算规范时重叠标记不计算在内。

因此，您应该像这样在索引设置中配置新的相似性：

PUT <index>
{
  "settings": {
    "index": {
      "number_of_shards": 1
    },
    "similarity": {
      "my_bm25_without_length_normalization": {
        "type": "BM25",
        "b": 0
      }
    }
  },
  "mappings": {
    "doc": {
      "properties": {
        "name": {
          "type": "text",
          "similarity": "my_bm25_without_length_normalization"
        }
      }
    }
  }
}

然后，如果将停止惩罚更长的得分名称。长度标准化将保留用于其他字段。

score 1 · Accepted Answer

乍一看，我只有两条建议：

1.在那个领域使用英语分析器。~~我相信查询中术语之间的距离会影响文档的评分，我错了~~（编辑：正如@Pierre Mallet 所指出的，在 multi_query 中并非如此）并且标准分析器保留了诸如“for”和“a”之类的词，这可能会降低文档的分数，因为分析器将“for a”视为标记。

2.如果您有描述或详细文档之类的内容，您可以将该字段添加到您的 multi_match 字段列表中，并使用 ^2 调整字段的评分以在数学上操作评分（名称的相关性比描述的相关性更重要，但描述的内容可能是某些结果的一个很好的决胜局）请参见以下示例：

"multi_match": {
  "query": "open source",
  "fields": [
    "title^2",
    "content"
  ]
}

您还可以探索 multi_match 的类型参数，它会影响结果评分的行为方式。有关更多详细信息，请参阅此文档。

score 0 · Accepted Answer

I would recommend setting operator parameter of multi_match to and:

{
  "query": {
    "bool": {
      "must": [
        {
          "multi_match": {
            "fields": ["name"],
            "query": "Chevrolet Hub Bearing",
            "operator": "and"
          }
        }
      ]
    }
  }
}

The and operator ensures that all words from the search phrase must appear in the resulting document. This setting alone should give you the desired results.

elasticsearch - Elasticsearch 优先排序较短/不太相关的标题

3 回答 3

Related

Reference