我需要在 Python 中使用 HTML 实体将 unicode UTF-8 字符串编码为 ASCII。
要清楚:
source = u"Hello…"
wanted = "Hello…"
这不是解决方案:
as_ascii = source.encode('ascii', 'xmlcharrefreplace')
因为as_ascii
将设置为Hello…
- 即,使用 XML 字符引用,而不是 HTML 之一。
是否有 Python 模块/函数/实体字典可以:
- 使用 HTML 字符引用将 unicode 解码为 ASCII。
- 将具有 XML 字符引用的 ASCII 字符串替换为 HTML 字符引用(视情况而定)。