0

我正在使用 RoboBrowser(它使用 BeautifulSoup)从网站中提取链接,其中一些链接包含 unicode 字符。但是我无法让 python 正确解释它。

例如,链接包含此西里尔字符

哪个是 URL 编码为

%D0%BF

美丽的汤会吐出来

u'\xd0\xbf'

这对我来说看起来正确但打印出来

п

对应字节数组

'c3 90 c2 bf'

正确的编码似乎是

u'\u043f'

它给出了正确的字节数组并且也正确打印

u'\u043f'.encode("utf-8").encode("hex")
'd0bf'

我猜我做错了什么所以问题是我如何从

u'\xd0\xbf' to u'\u043f'
4

0 回答 0