4

我正在使用来自 SeatGeek 的 FuzzyWuzzy 字符串匹配模块

我发现在使用 token_set_ratio 搜索算法时,大小写的微小差异会产生截然不同的结果。

例如,如果我在文件中查找短语“我正在吃东西”,我会得到 100% 的匹配。但是,如果短语是“我在吃”,仅 ONE 字母的变化,给我一个 65% 的匹配。

有没有办法让算法不区分大小写?

4

3 回答 3

2

token_set_ratio() 默认情况下不区分大小写。

from fuzzywuzzy import fuzz
fuzz.token_set_ratio("I am eating", "i am eating")
=> 100
于 2014-01-09T17:05:02.387 回答
1

我遇到了同样的问题,您可能使用的是 Ratio 而不是 TokenSetRatio ...

于 2020-11-05T11:02:49.077 回答
0

如果您通过fuzz 这里的原始代码,您会发现fuzz.token_set_ratio在进行序列匹配之前将字符串转换为小写。

此外,您可能需要查看 SeatGeek 工程师的这篇 stackoverflow 帖子以便更清楚地了解比率的使用情况。

希望这可以帮助

于 2017-09-21T13:47:03.850 回答