我正在研究不同的相似性算法,这些算法定义了在搜索过程中如何计算每个文档的分数。此处列出了可用的算法:http ://www.elasticsearch.org/guide/en/elasticsearch/reference/current/index-modules-similarity.html
我的问题是,在浏览 wikipedia 文章或 lucene API 文档中的类描述时,我很难理解它们。我真的很喜欢这里解释 TF/IDF 相似性算法(ElasticSearch 中的默认算法)的答案:这个 ElasticSearch 查询排名背后的原因是什么?(所以这个我理解到一定程度)。
有人可以对那里概述的其他算法提供类似的简单解释吗?这些包括:
- bm25 相似度
- drf相似度
- ib相似度
先感谢您。