我在尝试实现全文搜索时遇到了问题。对我来说,它更像是数学/统计,而不是任何东西。从数据库中提取的数据是书名,因此查询返回的分数可能具有非常接近的值(例如:9.98;9.97;9.78 - 这些都是非常相关的结果)或分布广泛(例如:9.99;8.2;2.1 -前两个是相关的,第三个是噪音)。我不知道如何操纵查询结果来删除不相关的。标准偏差不起作用,因为它在我的第一个示例中过滤了好的结果,各种归一化方法要么省略相关结果,要么包含不相关的结果。请有任何想法或想法。
谢谢。胜利者
我在尝试实现全文搜索时遇到了问题。对我来说,它更像是数学/统计,而不是任何东西。从数据库中提取的数据是书名,因此查询返回的分数可能具有非常接近的值(例如:9.98;9.97;9.78 - 这些都是非常相关的结果)或分布广泛(例如:9.99;8.2;2.1 -前两个是相关的,第三个是噪音)。我不知道如何操纵查询结果来删除不相关的。标准偏差不起作用,因为它在我的第一个示例中过滤了好的结果,各种归一化方法要么省略相关结果,要么包含不相关的结果。请有任何想法或想法。
谢谢。胜利者
我只是在处理类似这样的问题,但使用的是基于时间的数据而不是全文。我发现了68-95-99.7 规则,其中指出,在真正的钟形曲线中,大约 95% 的结果在均值的 2 个标准差以内。我接受了这些知识,并决定将 5% 的结果作为异常值丢弃。您可以做类似的事情——省略 5% 的相关性得分最低的全文结果。
另一种选择可能是选择某个阈值相关性分数,或您要显示的某个最小结果数。或两者兼而有之——您可以按产生更多结果的任何标准进行显示。