python - FuzzyWuzzy 字符串匹配 - 区分大小写

Question

我发现在使用 token_set_ratio 搜索算法时，大小写的微小差异会产生截然不同的结果。

例如，如果我在文件中查找短语“我正在吃东西”，我会得到 100% 的匹配。但是，如果短语是“我在吃”，仅 ONE 字母的变化，给我一个 65% 的匹配。

有没有办法让算法不区分大小写？

score 2 · Accepted Answer

token_set_ratio() 默认情况下不区分大小写。

from fuzzywuzzy import fuzz
fuzz.token_set_ratio("I am eating", "i am eating")
=> 100

score 1 · Accepted Answer

1

我遇到了同样的问题，您可能使用的是 Ratio 而不是 TokenSetRatio ...

于 2020-11-05T11:02:49.077 回答

score 0 · Accepted Answer

如果您通过fuzz 这里的原始代码，您会发现fuzz.token_set_ratio在进行序列匹配之前将字符串转换为小写。

此外，您可能需要查看 SeatGeek 工程师的这篇 stackoverflow 帖子，以便更清楚地了解比率的使用情况。

希望这可以帮助

3 回答 3