我正在获取的 HTML 文件包含一些 HTML 标头中指定的编码不支持的字符:
我发现以下是 Shift_JIS 编码不支持但实际使用的。我的浏览器可以正确显示这些字符。
- ∑ n 进制求和 U+2211
- ゚ 半角片假名 半浊音标 U+FF9F
- Д 西里尔大写字母 de U+414
当我尝试读取此 HTML 文件并进行解码以进行处理时,我得到了 UnicodeDecodeError。
url = 'http://matsucon.net/material/dic/kao09.html'
response = urllib2.urlopen(url)
response.read().decode('shift_jis_2004')
有什么好方法可以处理包含错误编码字符的 HTML 而不会出错?