考虑到我有三个客户帐户,并且三个帐户的数据存储在单个索引中的三个别名中,该索引分布在三个分片上。
对于给定的查询,tf-idf 是如何计算的?由于它在单个索引中,因此术语计数是否与所有三个帐户的数据/别名一起考虑。我想知道我们是否可以将术语频率计数和 IDF 仅限于帐户/一个别名
考虑到我有三个客户帐户,并且三个帐户的数据存储在单个索引中的三个别名中,该索引分布在三个分片上。
对于给定的查询,tf-idf 是如何计算的?由于它在单个索引中,因此术语计数是否与所有三个帐户的数据/别名一起考虑。我想知道我们是否可以将术语频率计数和 IDF 仅限于帐户/一个别名
如果您使用带别名的路由,它将使用特定路由来查找分片,并将计算该特定分片上的 tf-idf,否则您的 tf-idf 将根据索引计算。有关更多信息,您可以在此处和此处查看 ElasticSearch 中的自定义路由。
更新:
索引和分片定义:
Elasticsearch 中的数据被组织成索引。每个索引由一个或多个分片组成。每个分片都是 Lucene 索引的一个实例,您可以将其视为一个独立的搜索引擎,它为 Elasticsearch 集群中的数据子集编制索引并处理查询。