我正在获取一个网页(http://autoweek.com)并尝试处理它,但出现编码错误。Autoweek 声明“iso-8859-1”编码并带有“Nürburgring”一词(u 带有变音符号)
我愿意:
# -*- encoding: utf-8 -*-
import urllib
webpage = urllib.urlopen(feed.crawl_url).read()
webpage.decode("utf-8")
它给了我以下错误:
'utf8' codec can't decode bytes in position 7768-7773: unsupported Unicode code range"
如果我绕过 .decode 步骤并使用 lxml 库进行一些解析,则在将解析的标题保存到数据库时会引发错误:
'utf8' codec can't decode bytes in position 45-50: unsupported Unicode code range
我的数据库有字符集 utf8 和排序规则 utf-general-ci
我的设置:
Django
Python 2.4.3
MySQL 5.0.22
MySQL-python 1.2.1
mod_python 3.2.8