我正在尝试将 HTML 从网站转储到 JSON,我需要一种方法来处理不同的字符编码。
我读过如果不是utf-8,它可能是ISO-8859-1,所以我现在正在做的是:
for possible_encoding in ["utf-8", "ISO-8859-1"]:
try:
# post_dict contains, among other things, website html retrieved
# with urllib2
json = simplejson.dumps(post_dict, encoding=possible_encoding)
break
except UnicodeDecodeError:
pass
if json is None:
raise UnicodeDecodeError
如果我遇到任何其他编码,这当然会失败,所以我想知道在一般情况下是否有办法解决这个问题。
我首先尝试序列化 HTML 的原因是因为我需要在 POST 请求中将它发送到我们的 NodeJS 服务器。因此,如果有人有不同的解决方案允许我这样做(可能根本不需要序列化为 JSON),我也很高兴听到这个消息。