php - 全文搜索分数相关性分析

Question

我在尝试实现全文搜索时遇到了问题。对我来说，它更像是数学/统计，而不是任何东西。从数据库中提取的数据是书名，因此查询返回的分数可能具有非常接近的值（例如：9.98；9.97；9.78 - 这些都是非常相关的结果）或分布广泛（例如：9.99；8.2；2.1 -前两个是相关的，第三个是噪音）。我不知道如何操纵查询结果来删除不相关的。标准偏差不起作用，因为它在我的第一个示例中过滤了好的结果，各种归一化方法要么省略相关结果，要么包含不相关的结果。请有任何想法或想法。

谢谢。胜利者

score 1 · Accepted Answer

我只是在处理类似这样的问题，但使用的是基于时间的数据而不是全文。我发现了68-95-99.7 规则，其中指出，在真正的钟形曲线中，大约 95% 的结果在均值的 2 个标准差以内。我接受了这些知识，并决定将 5% 的结果作为异常值丢弃。您可以做类似的事情——省略 5% 的相关性得分最低的全文结果。

另一种选择可能是选择某个阈值相关性分数，或您要显示的某个最小结果数。或两者兼而有之——您可以按产生更多结果的任何标准进行显示。

php - 全文搜索分数相关性分析

1 回答 1

Related

Reference