我们的 REST API 允许用户将自定义无模式 JSON 添加到我们的一些 REST 资源中,我们需要它可以在 Elasticsearch 中搜索。此自定义数据及其结构在同一类型的资源中可能完全不同。
考虑这个示例文档:
{
"givenName": "Joe",
"username": "joe",
"email": "joe@mailinator.com",
"customData": {
"favoriteColor": "red",
"someObject": {
"someKey": "someValue"
}
}
}
除customData
遵循模式外的所有字段。customData
始终是 JSON 对象,但该对象中的所有字段和值可能因资源而异。无法保证 customData 中的任何给定字段名称或值(甚至值类型)在任何两个资源中都是相同的,因为用户可以根据需要编辑这些字段。
支持搜索的最佳方式是什么?
我们认为解决方案是在创建customData
索引时不创建任何映射,但随后它变得不可查询(这与ES 文档所说的相反)。如果对非映射属性的查询有效,这将是理想的解决方案,并且这种方法没有性能问题。但是,在为此进行了多次测试之后,我们无法让它发挥作用。
这是需要任何特殊配置的东西吗?还是文档不正确?非常感谢您对为什么它不起作用的一些澄清。
由于这目前不适合我们,我们已经想到了几个替代解决方案:
重新索引:这将是昂贵的,因为我们需要重新索引包含该文档的每个索引,并且每次用户更新具有不同值类型的属性时都这样做。对性能真的很不利,所以这可能不是一个真正的选择。
使用多重匹配查询:每次 customData 对象发生变化时,我们都会通过在 customData 字段名称中附加一个随机字符串来做到这一点。例如,这就是被索引的文档的样子:
{ "givenName": "Joe", "username": "joe", "email": "joe@mailinator.com", "customData_03ae8b95-2496-4c8d-9330-6d2058b1bbb9": { "favoriteColor": "red", "someObject": { "someKey": "someValue" } } }
这意味着 ES 将为每个“随机”字段创建一个新映射,并且在执行查询时,我们将使用短语多重匹配查询,使用“开头为”通配符作为字段名称。例如:
curl -XPOST 'eshost:9200/test/_search?pretty' -d ' { "query": { "multi_match": { "query" : "red", "type" : "phrase", "fields" : ["customData_*.favoriteColor"] } } }'
这可能是一个可行的解决方案,但我们担心这样的映射过多会影响性能。索引上的映射过多是否会对性能产生影响?也许定期重新索引可以减轻映射过多?
这也只是感觉像是一种 hack,应该由 ES 本地处理。我错过了什么吗?
任何关于这方面的建议将不胜感激。
谢谢!