elasticsearch - Elasticsearch 忽略分面术语的空格和大小写

Question

我已经用一些标记为 no_analysis 的字段制作了我的 es 模式，用于创建方面。但似乎我的一些数据包含空格或小写字母。例如，对于名为 color 的字段，我有值“BLACK”、“Black”、“Black”，这会导致 3 个不同的方面术语。有没有办法在不更改数据的情况下处理这个问题？

score 2 · Accepted Answer

如果您使用关键字 tokenizer ，您可以在不对其进行标记的情况下分析您的文本。这意味着“Black Dog”不会被拆分为两个标记，但您可以应用标记过滤器来修改标记，例如使用小写过滤器将它们小写并使用修剪标记过滤器修剪它们。

您需要在索引设置中创建一个自定义分析器，并将其用于您正在处理的字段的映射中。

因此，您将从作为输入提供的三个“BLACK”、“Black”和“Black”中索引唯一的“black”标记。

1 回答 1