我已经用一些标记为 no_analysis 的字段制作了我的 es 模式,用于创建方面。但似乎我的一些数据包含空格或小写字母。例如,对于名为 color 的字段,我有值“BLACK”、“Black”、“Black”,这会导致 3 个不同的方面术语。有没有办法在不更改数据的情况下处理这个问题?
问问题
1634 次
1 回答
2
如果您使用关键字 tokenizer ,您可以在不对其进行标记的情况下分析您的文本。这意味着“Black Dog”不会被拆分为两个标记,但您可以应用标记过滤器来修改标记,例如使用小写过滤器将它们小写并使用修剪标记过滤器修剪它们。
您需要在索引设置中创建一个自定义分析器,并将其用于您正在处理的字段的映射中。
因此,您将从作为输入提供的三个“BLACK”、“Black”和“Black”中索引唯一的“black”标记。
于 2013-05-09T20:00:38.270 回答