我想使用 Python 抓取一个充满可怕问题的网站,其中一个是顶部的错误编码:
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
这是错误的,因为该页面充满了如下内容:
Nell’ambito
代替
Nell'ambito
(请注意’
更换'
)
如果我理解正确,这是因为 utf-8 字节(可能是数据库编码)被解释为 iso-8859-1 字节(由元标记中的字符集强制)。我在此链接http://www.i18nqa.com/debug/utf8-debug.html找到了一些初步解释
我正在使用 BeautifulSoup 导航页面,Google App Engine 的 urlfetch 发出请求,但是我需要了解在我的数据库中存储字符串的正确方法是’
通过将字符串编码为'
.