我知道默认词频 (tf) 只是简单地计算为被搜索的特定词出现在字段中的次数的 sqrt。因此,包含您正在搜索的术语多次出现的文档将具有更高的 tf 并因此具有更高的权重。
我不确定的是,这是否有助于提高文档分数,因为权重更高,或者降低文档分数,因为它使文档向量远离查询向量,正如《Hibernate Search in Action》一书所说(第 363 页) . 我承认我真的很难看到文档向量模型如何与 lucene 评分方程相匹配
我知道默认词频 (tf) 只是简单地计算为被搜索的特定词出现在字段中的次数的 sqrt。因此,包含您正在搜索的术语多次出现的文档将具有更高的 tf 并因此具有更高的权重。
我不确定的是,这是否有助于提高文档分数,因为权重更高,或者降低文档分数,因为它使文档向量远离查询向量,正如《Hibernate Search in Action》一书所说(第 363 页) . 我承认我真的很难看到文档向量模型如何与 lucene 评分方程相匹配