mysql - 重音敏感全文搜索（MySQL）

Question

希望我只是看不到树木的森林，但我的全文搜索行为非常奇怪，我无法自己解决这个问题。（我试图寻找解决方案，但到目前为止没有运气，因此非常感谢任何帮助。）

所以我的问题是：如果我搜索“ tök ”（在匈牙利语中意为“南瓜”），该列表还包含带有“ tok ”（意为“案例”）的结果。如果我搜索南瓜，我显然不想要手机壳之类的东西。

我的系统是 MySQL 每个表都在InnoDB 中，utf8_general_ci

这是（简化的）查询：

SELECT id_item,item_title,tag_name, MATCH (item_title) AGAINST ('tök' IN NATURAL LANGUAGE MODE) AS title_relevance, MATCH (tag_name) AGAINST ('tök' IN NATURAL LANGUAGE MODE) AS tag_relevance 
FROM item_translations 
WHERE NULL IS NULL 
AND (   MATCH (tile_item_title) AGAINST ('+tök' IN NATURAL LANGUAGE MODE ) OR MATCH (tag_name) AGAINST ('+tök' IN NATURAL LANGUAGE MODE ) ) 
AND id_language=1 
ORDER BY title_relevance DESC, tag_relevance DESC 
LIMIT 0,40

PS：关键字并不总是匈牙利语，因为这个网站是多语言的，所以我需要一个相对灵活的解决方案，它可以处理大多数重音字母（如果可能的话）

score 1 · Accepted Answer

字符串比较中的相等性由排序规则指定。general会将每个字母视为其（拉丁）基本字符。您需要指定支持您想要区分的重音和变音符号的排序规则。

排序规则包括语言细节。例如西班牙语，n < ñ < o（而n = ñ基本上所有其他语言），瑞典语你有Y = Ü，德语（和大多数排序规则）有ß = ss，匈牙利语（和许多其他排序规则）你有o < ö。

因此，对于匈牙利站点，您可能需要选择utf8_hungarian_ci，如果您的软件可本地化为特定语言（和受众），您可能需要调整该列的排序规则或让管理员选择一个。不幸的是，对于全文搜索（与=or等其他字符串比较相比order by），您无法在查询中动态指定排序规则，因此您需要选择一个排序规则。

在一个通用的多语言网站上，大多数用户可能希望搜索适合非常通用的英语/俄语/中文模式，如果他们tök在输入tok. 他们甚至可能会因为没有得到这些而感到恼火，特别是如果他们ö的键盘上没有南瓜并且真的想买一个南瓜（并且知道它的匈牙利语）。大多数搜索引擎其实会尽量不要太窄，café输入的时候就想找到，而且往往会在输入的时候cafe能找到，或者。cafécoffeecaffécafée

但是，没有一种语言可以以不同的方式处理每种口音和变音符号。如果你真的想区分每一个特殊字符，你可能想尝试一下utf8_bin（虽然我不确定我是否会称它为最灵活的）。重要的是要注意它区分大小写，但由于全文搜索始终不区分大小写，所以这无关紧要。如果您在此列上进行其他字符串比较（例如like），这可能会出现问题。此外，您将失去特定于语言的行为，例如Y = Ü或ß = ss（除非您自己实现它）。

mysql - 重音敏感全文搜索（MySQL）

1 回答 1

Related

Reference