1

我想使用 Python 抓取一个充满可怕问题的网站,其中一个是顶部的错误编码:

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

这是错误的,因为该页面充满了如下内容:

Nell’ambito

代替

Nell'ambito(请注意’更换'

如果我理解正确,这是因为 utf-8 字节(可能是数据库编码)被解释为 iso-8859-1 字节(由元标记中的字符集强制)。我在此链接http://www.i18nqa.com/debug/utf8-debug.html找到了一些初步解释

我正在使用 BeautifulSoup 导航页面,Google App Engine 的 urlfetch 发出请求,但是我需要了解在我的数据库中存储字符串的正确方法是’通过将字符串编码为'.

4

1 回答 1

8
于 2012-05-09T11:55:06.900 回答