python - 抓取编码为 iso-8859-1 而不是 utf-8 的网站：如何在我的数据库中存储正确的 unicode？

Question

我想使用 Python 抓取一个充满可怕问题的网站，其中一个是顶部的错误编码：

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

这是错误的，因为该页面充满了如下内容：

Nellâ€™ambito

代替

Nell'ambito（请注意â€™更换'）

如果我理解正确，这是因为 utf-8 字节（可能是数据库编码）被解释为 iso-8859-1 字节（由元标记中的字符集强制）。我在此链接http://www.i18nqa.com/debug/utf8-debug.html找到了一些初步解释

我正在使用 BeautifulSoup 导航页面，Google App Engine 的 urlfetch 发出请求，但是我需要了解在我的数据库中存储字符串的正确方法是â€™通过将字符串编码为'.

score 8 · Accepted Answer

8

于 2012-05-09T11:55:06.900 回答

1 回答 1