我正在考虑在一个新项目中使用Apache solr来索引数据。数据由不同的独立类型组成,这意味着例如
- 植物药
- 动物
- 汽车
- 电脑
索引。我应该为每种类型使用不同的索引还是只使用一个索引更有意义?使用多个索引如何影响性能?或者还有其他可能实现这一目标吗?
谢谢。
我正在考虑在一个新项目中使用Apache solr来索引数据。数据由不同的独立类型组成,这意味着例如
索引。我应该为每种类型使用不同的索引还是只使用一个索引更有意义?使用多个索引如何影响性能?或者还有其他可能实现这一目标吗?
谢谢。
两者都是合法的方法,但需要权衡取舍。首先,你的数据集有多大?如果它足够大,您可能希望在多个服务器上对其进行分区,那么使用不同的索引可能是有意义的。
其次,性能有多重要——将它们全部编入索引可能会导致性能下降,但程度取决于数据量和查询的复杂程度。
三、是否有需要在同一个搜索中查询多种数据类型?如果是这样,将所有内容索引在一起可能是一种方便的方法。从技术上讲,这可以通过单独的索引来实现,但是获得与查询最相关的结果可能是一个挑战(并不是说还没有)
第四,具有单一模式和配置的单一索引可以简化部署和维护系统的任何人的生活。
要考虑的另一件事是 ID - 所有不同的对象是否在所有类型中都具有唯一标识符?如果没有,如果您想将它们索引在一起,您可能需要生成它。