python - python ascii代码转utf

Question

因此，当我以我的母语在 mod_python 中发布名称或文本时，我得到：

&#1084;&#1072;&#1082;&#1077;&#1076;&#1086;&#1085;&#1080;&#1112;&#1072;

我也得到：

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-9: ordinal not in range(128)

当我使用：

hparser = HTMLParser.HTMLParser() 
    req.write(hparser.unescape(text))

我该如何解码？

score 6 · Accepted Answer

UnicodeError如果不了解底层机制，很难解释s。你真的应该阅读其中一个或两个

实用的 Unicode (Ned Batchelder)
每个软件开发人员绝对、绝对必须了解 Unicode 和字符集的绝对最低要求（没有任何借口！）（Joel Spolsky）

简而言之（非常小），Unicode 代码点是一个抽象的“事物”，代表一个字符¹。程序员喜欢使用这些，因为我们喜欢将字符串视为一次一个字符。不幸的是，很久以前就规定一个字符必须适合一个字节的内存，因此最多可以有 256 个不同的字符。这对于简单的英语来说很好，但不适用于其他任何东西。有一个全球代码点列表——数以千计的代码点——旨在保存所有可能的字符，但显然它们不适合一个字节。

解决方案：构成字符串的代码点的有序列表与其编码为字节序列之间存在差异。每当您使用字符串时，您必须清楚它应该采用哪种形式。

要在形式之间进行转换，您可以.encode()将代码点列表（Unicode 字符串）作为字节列表，并将.decode()字节转换为代码点列表。为此，您需要知道如何将代码点映射为字节，反之亦然，这就是编码。如果你不指定一个，Python 2.x 会猜测你的意思是 ASCII。如果这个猜测是错误的，你会得到一个UnicodeError.

请注意，Python 3.x 在处理 Unicode 字符串方面要好得多，因为字节和代码点之间的区别更加清晰。

¹种。

编辑：我想我应该指出这有什么帮助。但是你真的应该阅读上面的链接！到处乱扔.encode()s 和.decode()s 是一种糟糕的编码方式，总有一天你会被更糟糕的问题所困扰。

无论如何，如果你逐步完成你在 shell 中所做的事情，你会看到

>>> from HTMLParser import HTMLParser
>>> text = "&#1084;&#1072;&#1082;&#1077;&#1076;&#1086;&#1085;&#1080;&#1112;&#1072;"
>>> hparser = HTMLParser()
>>> text = hparser.unescape(text)
>>> text
u'\u043c\u0430\u043a\u0435\u0434\u043e\u043d\u0438\u0458\u0430'

我在这里使用 Python 2.7，所以这是一个 Unicode 字符串，即一系列 Unicode 代码点。我们可以将它们编码为常规字符串（即字节列表），例如

>>> text.encode("utf-8")
'\xd0\xbc\xd0\xb0\xd0\xba\xd0\xb5\xd0\xb4\xd0\xbe\xd0\xbd\xd0\xb8\xd1\x98\xd0\xb0'

但我们也可以选择不同的编码！

>>> text.encode("utf-16")
'\xff\xfe<\x040\x04:\x045\x044\x04>\x04=\x048\x04X\x040\x04'

您需要决定要使用的编码。

你做的时候出了什么问题？好吧，并不是每个编码都能理解每个代码点。特别是"ascii"编码只懂前256！所以如果你尝试

>>> text.encode("ascii")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-9: ordinal not in range(128)

你只是得到一个错误，因为你不能用 ASCII 编码这些代码点。

当你这样做时req.write，你试图在请求中写下一个代码点列表。但是 HTML 请求不理解代码点：它们只使用 ASCII。Python 2 将尝试通过自动对您的 Unicode 字符串进行 ASCII 编码来提供帮助，如果它们确实是 ASCII 则很好，但如果它们不是则则不然。

所以你需要做req.write(hparser.unescape(text).encode("some-encoding"))。

python - python ascii代码转utf

1 回答 1

Related

Reference