我有一组将被收集的字符串,其中一些带有重音符号(例如é
)。我希望使用基本的 ascii 字母(用于 URL)创建每个版本。我发现了很多其他类似问题的例子,我可以让它像这样工作:
from unidecode import unidecode
unidecode(u"Café")
但是我有兴趣将其应用于一组字符串,取自 csv/googledoc/similar 。
在这种情况下,我假定的做法是声明它们是 unicode,如下所示:
from_google_doc = "Café"
a = unicode(fromgoogledoc,'utf-8')
但是,这会返回一个错误,即 utf8 无法解码位置 3 的字节 0x82。
我试过这个:
a = unicode("Café",'iso-8859-1')
这有效,但是当传递给 unidecode 时,会切断é
.
抱歉,如果这是基本的,我的研究/修修补补让我无处可去……我对 Python 相当陌生,对编码也很陌生!