performance - 对于 RediSearch，创建单个索引还是创建多个索引更好？

Question

我正在一个多租户应用程序中使用RediSearch构建一个索引，该应用程序具有：

150,000 名租户
每个租户平均有 3,500 名客户
每个客户有 10 个字段将被添加到索引中
所有字段都是TextFields.

问题是，在这种情况下，最佳实践（性能、内存/存储、灵活性）是什么？

我应该创建一个customer_index字段tenant_code来帮助识别哪些数据属于哪个租户，还是应该创建一个租户特定的索引？

根据我目前的经验和理解，租户特定索引意味着许多索引，但其中的数据较少，而且它还可以让我灵活地为特定租户删除和重新创建索引？

在 Python 中，代码如下：

单一客户指数

client = Client(`customer_index`)
client.create_index(
            [
                TextField('tenant_code'), TextField('last_name'), TextField('first_name'),
                TextField('other_name'), 
            ]
        )

租户特定客户指数

client = Client(`tenant_code_customer_index`)
client.create_index(
            [
                TextField('last_name'), TextField('first_name'), TextField('other_name'), 
            ]
        )

score 6 · Accepted Answer

因为每个租户只有 3500 个客户（相对较少），所以最好使用更大的索引来减少内存。由于记录如此之少，每个索引的资源开销可能会超过索引本身的大小。这也将增加 redis 本身中键的数量，因为为每个索引的每个索引项创建一个新的 Redis 键。因此，如果每个数据库中有大约 2000 个唯一术语，那么您最终将获得 300M Redis 键（2k * 150k）。相反，使用单个索引将只剩下 2k 个键。

在性能方面，也不应该有任何区别，因为租户代码本身就是一个倒排索引，因此搜索不太可能需要在更大的索引中筛选更多记录。

对于删除，您可以简单地收集与标准匹配的 ID 列表，例如“ FT.SEARCH idx @tenant:yourcode”，然后单独调用FT.DEL这些记录中的每一个。我假设这不是每五秒执行一次的操作，所以你应该在那里。

请注意，现在甚至不可能使用 150k 索引，因为为每个索引创建了一个专用的索引线程（尽管在未来的版本中将提供在单个线程上执行索引的选项）。

performance - 对于 RediSearch，创建单个索引还是创建多个索引更好？

1 回答 1

Related

Reference