4

我试图通过部分单词进行搜索,忽略大小写并忽略某些字母的重音。是否可以?我认为带有默认标记器的 ngram 应该可以解决问题,但我不明白如何使用 NEST 来做到这一点。

示例:“musiic”应匹配包含“music”的记录

我使用的 Elasticsearch 版本是 1.9。

我正在这样做,但它不起作用......

var ix = new IndexSettings();
        ix.Add("analysis",
            @"{
               'index_analyzer' : {
                          'my_index_analyzer' : {
                                        'type' : 'custom',
                                        'tokenizer' : 'standard',
                                        'filter' : ['lowercase', 'mynGram']
                          }
               },
               'search_analyzer' : {
                          'my_search_analyzer' : {
                                        'type' : 'custom',
                                        'tokenizer' : 'standard',
                                        'filter' : ['standard', 'lowercase', 'mynGram']
                          }
               },
               'filter' : {
                        'mynGram' : {
                                   'type' : 'nGram',
                                   'min_gram' : 2,
                                   'max_gram' : 50
                        }
               }
    }");
        client.CreateIndex("sample", ix);

谢谢,

大卫

4

1 回答 1

3

简答

我认为您正在寻找的是一个模糊查询,它使用Levenshtein 距离算法来匹配相似的单词。

nGrams 上的长答案

nGram 过滤器根据定义的最小/最大范围将文本拆分为许多较小的标记。

例如,从您的“音乐”查询中,过滤器将生成: 'mu', 'us', 'si', 'ic', 'mus', 'usi', 'sic', 'musi', 'usic', and 'music'

如您所见musiic,与这些 nGram 令牌中的任何一个都不匹配。

为什么选择 nGram

nGrams 的一个好处是它使通配符查询显着更快,因为所有潜在的子字符串都是在插入时预先生成和索引的(我已经看到使用 nGrams 的查询从几秒加速到 15 毫秒)。

如果没有 nGram,则必须在查询时搜索每个字符串以查找匹配项 [O(n^2)],而不是直接在索引中查找 [O(1)]。作为伪代码:

hits = []
foreach string in index:
    if string.substring(query):
        hits.add(string)
return hits

对比

return index[query]

请注意,这是以使插入速度变慢、需要更多存储空间和更重的内存使用为代价的。

于 2013-03-23T20:36:00.697 回答