indexing - Elasticsearch Ngram 和查询字符串查询

Question

我正在使用 Elasticsearch 1.2.1。

我正在使用 Ngram 标记器来标记我的文档。我有一个特殊的用例，我的字段可能很长（200-500 个字符），我想支持来自字段任何点的冗长（最多 200 个字符）“包含”查询。

我从最多 260 个字符的 Ngram 分析器开始，很快发现索引时间太慢且容量太大，因此我将大小减小到大约 30 个字符。

现在，我希望能够将大于 30 个字符的标记分解为更小的标记，并用损坏的标记替换用户搜索（知道如果我使用更大的 Ngram 索引，我可能会得到更多的结果） .

实现此功能的推荐方法是什么？请注意，我正在使用查询字符串查询。

score 2 · Accepted Answer

尝试这里描述的解决方案：Exact Substring Searches in ElasticSearch

{
    "mappings": {
        "my_type": {
            "index_analyzer":"index_ngram",
            "search_analyzer":"search_ngram"
        }
    },
    "settings": {
        "analysis": {
            "filter": {
                "ngram_filter": {
                    "type": "ngram",
                    "min_gram": 3,
                    "max_gram": 8
                }
            },
            "analyzer": {
                "index_ngram": {
                    "type": "custom",
                    "tokenizer": "keyword",
                    "filter": [ "ngram_filter", "lowercase" ]
                },
                "search_ngram": {
                    "type": "custom",
                    "tokenizer": "keyword",
                    "filter": "lowercase"
                }
            }
        }
    }
}

为了解决磁盘使用问题和搜索词过长问题，使用了短 8 个字符的长ngram（配置为：“max_gram”：8）。要搜索超过 8 个字符的术语，请将搜索转换为布尔 AND 查询，以查找该字符串中每个不同的 8 个字符子字符串。例如，如果用户搜索large yard（10 个字符的字符串），则搜索结果为：

“arge ya AND arge yar AND rge yard .

indexing - Elasticsearch Ngram 和查询字符串查询

1 回答 1

Related

Reference