1

目前我使用这个简单的脚本来搜索字符串中的标签;

tag = "#tag"
text = "test string with #tag inserted"
match = re.search(tag, text, re.IGNORECASE) #matches

现在假设文本包含a-acute;

tag = "#tag"
text = "test string with #tág inserted"
match = re.search(tag, text, re.IGNORECASE) #does not match :(

我如何使这场比赛发挥作用?也应该适用于其他特殊字符(é、è、í 等)

提前致谢!

4

1 回答 1

3

您可以使用unidecode规范化文本:

import unicodedata

tag = "#tag"
text = u"test string with #tág inserted and a #tag"
text=unidecode(text)
re.findall(tag, text, re.IGNORECASE)

出去:

['#tag', '#tag']
于 2013-01-07T09:50:36.047 回答