python - python中的iso-8859-1和utf8

Question

我有 2 个两个字符串，我想将它们一起比较。

"Hỗ trợ ngôn ngữ"我认为这是 iso-8859-1 编码
u'H\u1ed7 tr\u1ee3 ng\xf4n ng\u1eef' 统一码。

2个字符串具有相同的内容。我想比较一下。如何将第一个字符串转换为与第二个字符串相同的编码。？

score 6 · Accepted Answer

您有 HTML 实体，只需使用该HTMLParser模块来取消转义：

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.unescape("H&#7895; tr&#7907; ng&#244;n ng&#7919;")
u'H\u1ed7 tr\u1ee3 ng\xf4n ng\u1eef'
>>> print h.unescape("H&#7895; tr&#7907; ng&#244;n ng&#7919;")
Hỗ trợ ngôn ngữ

这些 HTML 实体使用十进制数字，而不是十六进制。7895是1ed7十六进制等。它们编码 unicode 代码点，不使用 UTF-8 或 ISO-8859-1。ISO-8859-1 或 Latin-1 甚至无法编码这些特定的代码点（根据谷歌翻译，越南语表示“语言支持”）。

python - python中的iso-8859-1和utf8

1 回答 1

Related

Reference