我正在做的是:
- 通过javascript,读取网页的DOM
- 转换为 json 字符串
- 作为ajax发送到python
- 在 Python 中,json 将字符串解码为对象
我想要的是作为 json 一部分的任何文本都是 unicode 以避免任何字符问题。我曾经为此使用beautifulsoup:
from bs4 import *
from bs4.dammit import UnicodeDammit
text_unicode = UnicodeDammit(text, [None, None], "html", True).unicode_markup
但这不适用于 json 字符串。当我尝试对其进行 json 解码时,通过 UnicodeDammit 运行字符串会导致错误。
问题是,我什至不确定收集 DOM 不会自动处理这个问题。
因此,对于初学者,我想要一系列测试网页来测试这一点。其中一个是用 utf-8 编码的,另一个是用其他东西编码的,等等。如果你认为它是 utf-8 但它不是,那么它使用的字符看起来会出错。请注意,我什至不考虑网页的规定编码。这常常是错误的。