python - 如何在 Python 中使用 GB2312 编码解析 RSS

Question

我有一个用 GB2312 编码的 RSS 提要

当我尝试使用以下代码解析它时：

for item in XML.ElementFromURL(feed).xpath('//item'):
    title = item.find('title').text

它无法解析 Feed。

任何想法如何解析 GB2312 编码的 RSS 提要

使用如下编码后，来自 Plex 媒体服务器的错误日志如下

for item in XML.ElementFromURL(feed, encoding='gb2312').xpath('//item'):
        title = item.find('title').text

：

***Error Log:***
>  File "C:\Documents and Settings\subhendu.swain\Local Settings\Application Data\Plex Media Server\Plug-ins\Zaobao.bundle\Contents\Code\__init__.py", line 24, in GetDetails
    for item in XML.ElementFromURL(feed, encoding='gb2312').xpath('//item'):
  File "C:\Documents and Settings\subhendu.swain\Local Settings\Application Data\Plex Media Server\Plug-ins\Framework.bundle\Contents\Resources\Versions\2\Python\Framework\api\parsekit.py", line 81, in ElementFromURL
    return self.ElementFromString(self._core.networking.http_request(url, values, headers, cacheTime, autoUpdate, encoding, errors, immediate=True, sleep=sleep, opener=self._opener, txn_id=self._txn_id).content, isHTML=isHTML)
  File "C:\Documents and Settings\subhendu.swain\Local Settings\Application Data\Plex Media Server\Plug-ins\Framework.bundle\Contents\Resources\Versions\2\Python\Framework\api\parsekit.py", line 76, in ElementFromString
    return self._core.data.xml.from_string(string, isHTML)
  File "C:\Documents and Settings\subhendu.swain\Local Settings\Application Data\Plex Media Server\Plug-ins\Framework.bundle\Contents\Resources\Versions\2\Python\Framework\components\data.py", line 134, in from_string
    return etree.fromstring(markup)
  File "lxml.etree.pyx", line 2532, in lxml.etree.fromstring (src/lxml/lxml.etree.c:48270)
  File "parser.pxi", line 1545, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:71812)
  File "parser.pxi", line 1424, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:70673)
  File "parser.pxi", line 938, in lxml.etree._BaseParser._parseDoc (src/lxml/lxml.etree.c:67442)
  File "parser.pxi", line 539, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:63824)
  File "parser.pxi", line 625, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:64745)
  File "parser.pxi", line 565, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:64088)
XMLSyntaxError: switching encoding: encoder error, line 1, column 36

2011-09-28 09:34:33,453 (9d0) :  DEBUG (core) - Response: 404

score 2 · Accepted Answer

您的错误信息是XMLSyntaxError: switching encoding: encoder error, line 1, column 36. 你征求意见。这是一个新颖的想法：告诉我们“第 1 行”的前 50 个左右字节是什么。然后有人可能会想出一个补救办法。

更新：编码声明不正确。数据未编码为gb2312. 它至少是 GBK aka cp936。GB2312-80（即 1980 年的 80）是一个有限的字符集。不使用 UTF-8 的中文网站至少会使用超集 GBK（已经使用了 10 多年）并转向超集 GB18030（它本身就是一个 UTF）。见下文：

[Python 2.7.1]
>>> import urllib
>>> url = "http://www.zaobao.com/sp/sp.xml"
>>> data = urllib.urlopen(url).read()
>>> len(data)
10071
>>> data[:100]
'<?xml version="1.0" encoding="GB2312"?>\n\n<rss version="2.0"\n>\n\n<channel>\n<title>\xc1\xaa\xba\xcf\xd4\xe7\xb1\xa8\xcd\xf8 zaobao.co'
>>> x = data.decode('gb2312')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 1771-1772: illegal multibyte sequence
>>> data[1771:1773]
'\x95N'
>>> x = data.decode('utf8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc1 in position 80: invalid start byte
>>> x = data.decode('gbk')
>>> y = data.decode('cp936')
>>> x == y
True

我建议你试试XML.ElementFromURL(feed, encoding='gbk')。

gb2312如果这可行，您可能希望通过使用 urllib 读取数据、检查并如果找到它，则使用它来针对这个不常见的问题对您的代码进行防弹gb18030。

更新 2：如果有人提到chardet：由于 GBK 使用 GB2312 中许多未使用的插槽，并且 chardet 无法处理实际使用的插槽，并且没有尝试通过试解码来验证其答案，charget 猜测 GB2312。

score 1 · Accepted Answer

我假设您使用的是Plex XML API。文档指出，XML.ElementFromURL(feed, encoding='gb2312')如果您知道这确实是正在使用的编码，则可以调用。

如果 XML 确实是用 GB2312 编码的，那么声明必须是<?xml version="1.0" encoding="gb2312"?>（或以字节顺序标记开头，对于 UTF-16），否则XML 无效。如果encodingXML 声明中没有，并且没有字节顺序标记，则解析器必须默认采用 UTF-8 编码，因此encoding在声明中没有使用任何其他 XML 字符编码都是无效的。由于不指定编码会给您带来错误，我认为 RSS 提要可能不是有效的 XML。

python - 如何在 Python 中使用 GB2312 编码解析 RSS

2 回答 2

Related

Reference