0

我已经用一些标记为 no_analysis 的字段制作了我的 es 模式,用于创建方面。但似乎我的一些数据包含空格或小写字母。例如,对于名为 color 的字段,我有值“BLACK”、“Black”、“Black”,这会导致 3 个不同的方面术语。有没有办法在不更改数据的情况下处理这个问题?

4

1 回答 1

2

如果您使用关键字 tokenizer ,您可以在不对其进行标记的情况下分析您的文本。这意味着“Black Dog”不会被拆分为两个标记,但您可以应用标记过滤器来修改标记,例如使用小写过滤器将它们小写并使用修剪标记过滤器修剪它们。

您需要在索引设置中创建一个自定义分析器,并将其用于您正在处理的字段的映射中。

因此,您将从作为输入提供的三个“BLACK”、“Black”和“Black”中索引唯一的“black”标记。

于 2013-05-09T20:00:38.270 回答