我需要存储可以使用任何语言的网站内容。而且我需要能够在内容中搜索 Unicode 字符串。
我试过类似的东西:
import urllib2
req = urllib2.urlopen('http://lenta.ru')
content = req.read()
内容是字节流,所以我可以搜索它以查找 Unicode 字符串。
我需要一些方法,当我这样做urlopen
然后读取时使用标题中的字符集来解码内容并将其编码为 UTF-8。
在您执行的操作之后,您将看到:
>>> req.headers['content-type']
'text/html; charset=windows-1251'
所以:
>>> encoding=req.headers['content-type'].split('charset=')[-1]
>>> ucontent = unicode(content, encoding)
ucontent
现在是一个 Unicode 字符串(140655 个字符)——例如,如果您的终端是 UTF-8,则显示其中的一部分:
>>> print ucontent[76:110].encode('utf-8')
<title>Lenta.ru: Главное: </title>
你可以搜索,等等等等。
编辑:Unicode I/O 通常很棘手(这可能是阻碍原始提问者的原因)但我将绕过将 Unicode 字符串输入到交互式 Python 解释器的难题(与原始问题完全无关)来展示如何,一旦正确输入了一个 Unicode 字符串(我是通过代码点来做的——愚蠢但并不棘手;-),搜索绝对是不费吹灰之力(因此希望原始问题已经得到彻底回答)。再次假设一个 UTF-8 终端:
>>> x=u'\u0413\u043b\u0430\u0432\u043d\u043e\u0435'
>>> print x.encode('utf-8')
Главное
>>> x in ucontent
True
>>> ucontent.find(x)
93
注意:请记住,此方法可能不适用于所有站点,因为某些站点仅在提供的文档中指定字符编码(例如,使用 http-equiv 元标记)。
要解析Content-Type
http 标头,您可以使用cgi.parse_header
以下函数:
import cgi
import urllib2
r = urllib2.urlopen('http://lenta.ru')
_, params = cgi.parse_header(r.headers.get('Content-Type', ''))
encoding = params.get('charset', 'utf-8')
unicode_text = r.read().decode(encoding)
获取字符集的另一种方法:
>>> import urllib2
>>> r = urllib2.urlopen('http://lenta.ru')
>>> r.headers.getparam('charset')
'utf-8'
或者在 Python 3 中:
>>> import urllib.request
>>> r = urllib.request.urlopen('http://lenta.ru')
>>> r.headers.get_content_charset()
'utf-8'
也可以在 html 文档中指定字符编码,例如<meta charset="utf-8">
.