python - 在 python 中正确解码十六进制转义的 unicode 字符串

翻译自：https://stackoverflow.com/questions/47305323 2017-11-15T10:44:19.110

82 次

我正在使用 RoboBrowser（它使用 BeautifulSoup）从网站中提取链接，其中一些链接包含 unicode 字符。但是我无法让 python 正确解释它。

例如，链接包含此西里尔字符

□

哪个是 URL 编码为

%D0%BF

美丽的汤会吐出来

u'\xd0\xbf'

这对我来说看起来正确但打印出来

Ð¿

对应字节数组

'c3 90 c2 bf'

正确的编码似乎是

u'\u043f'

它给出了正确的字节数组并且也正确打印

u'\u043f'.encode("utf-8").encode("hex")
'd0bf'

我猜我做错了什么所以问题是我如何从

u'\xd0\xbf' to u'\u043f'

0 回答 0