0

我正在做一些文本处理,我需要将所有文本转换为小写,但文本是法语,我需要保留所有变音符号,以便“È”将转换为“è”等。如果它完全有帮助,我实际上不需要将最终输出作为文本,只需要每个唯一字符的标识符(例如数字)(其中“e”和“è”是不同的字符)。有什么建议么?

4

2 回答 2

2

使用 Unicode 字符串:

>>> u"É".lower()
'é'
于 2013-07-09T15:14:49.377 回答
0

我认为您的问题是您正在转换为ascii。如果你尝试类似

word = u"HÈLLO"
print word.lower()

应该这样做

于 2013-07-09T15:14:47.200 回答