elasticsearch - 基于匹配token比率的Elasticsearch评分

Question

我正在使用 Elasticsearch（v 1.7.3，带有 Java 传输客户端）来搜索人名数据库。我正在利用一堆可用的语音算法（DoubleMetaphone、RefinedSoundex 等）来索引我的姓名字段并存储它们。但是，我需要的评分算法是计算输入标记与索引中的标记的接近百分比。

例如：

以下文档在使用语音算法进行索引时：

{
  "FullName": "Christopher Cruickshank"
}

扩展为（使用分析 api 获取的输出）：

{
  "tokens": [
    {
      "token": "C3090360109",
      "start_offset": 0,
      "end_offset": 11,
      "type": "<ALPHANUM>",
      "position": 1
    },
    {
      "token": "christopher",
      "start_offset": 0,
      "end_offset": 11,
      "type": "<ALPHANUM>",
      "position": 1
    },
    {
      "token": "K3936",
      "start_offset": 0,
      "end_offset": 11,
      "type": "<ALPHANUM>",
      "position": 1
    },
    {
      "token": "KRST",
      "start_offset": 0,
      "end_offset": 11,
      "type": "<ALPHANUM>",
      "position": 1
    },
    {
      "token": "C3903083",
      "start_offset": 12,
      "end_offset": 23,
      "type": "<ALPHANUM>",
      "position": 2
    },
    {
      "token": "cruickshank",
      "start_offset": 12,
      "end_offset": 23,
      "type": "<ALPHANUM>",
      "position": 2
    },
    {
      "token": "K3935",
      "start_offset": 12,
      "end_offset": 23,
      "type": "<ALPHANUM>",
      "position": 2
    },
    {
      "token": "KRKX",
      "start_offset": 12,
      "end_offset": 23,
      "type": "<ALPHANUM>",
      "position": 2
    }
  ]
}

现在在搜索期间，当我查询：

{
              "match": {
                "FullName": {
                  "query": "Cristopher Krukshank",
                  "boost": 10.0
                }
              }
            }

我想做的是根据索引中匹配标记的数量对结果进行评分。

IE：

(Number of matched tokens per term / Total number of expanded tokens per term) * Boost

虽然这在概念上可以工作，但我想知道是否有更好的方法来实现同样的目标。

此外，我倾向于在索引期间推动大量复杂性和逻辑（通过将总标记数存储在字段中），因此我的搜索逻辑会更简单。如果这是一种合理的方法，那么我想知道在索引过程中使用分析 api 是否有任何技术含义，尤其是在对数百万个名称使用批量索引时。我猜会为每个原始令牌和每个扩展令牌调用分析 API（这可能是巨大的！）。

如果这根本不是一个合理的方法，那么请有人指点或分享一些经验吗？

我也在考虑的另一个选项是在查询期间调用分析 api，并使用“解释”选项将查询发送到 elasticsearch，然后在解释部分进行字符串匹配以计算出匹配的令牌数。

score 0 · Accepted Answer

我们以间接的方式做到了这一点。我正在尝试找到更好的方法并看到您的帖子。

解决方案是在搜索“ Cristopher Krukshank ”时，例如，第一个命中是：

“小克里斯托弗·克鲁克香克”得分10.0

然后您获取第一个结果“ Cristopher Krukshank Jr. ”并再次搜索。当然，第一个结果将是“ Cristopher Krukshank Jr. ”，但得分更高，例如“ 20.0 ”。

所以你知道最高分数是20，那么对于部分匹配，最终分数是“第一分数/最高分数”，即10/20 = 0.5。最终得分将是一个介于 0~1 之间的值。1 表示完全匹配。

一个问题是输入可能是一个标记任何东西。例如对于“Cristopher Krukshank XXXXX ”，XXXXX可能不是索引上的标记。所以为了让它正确，我们必须使用令牌的数量来重新计算分数。

elasticsearch - 基于匹配token比率的Elasticsearch评分

例如：

1 回答 1

Related

Reference