我正在使用 RoboBrowser(它使用 BeautifulSoup)从网站中提取链接,其中一些链接包含 unicode 字符。但是我无法让 python 正确解释它。
例如,链接包含此西里尔字符
□
哪个是 URL 编码为
%D0%BF
美丽的汤会吐出来
u'\xd0\xbf'
这对我来说看起来正确但打印出来
п
对应字节数组
'c3 90 c2 bf'
正确的编码似乎是
u'\u043f'
它给出了正确的字节数组并且也正确打印
u'\u043f'.encode("utf-8").encode("hex")
'd0bf'
我猜我做错了什么所以问题是我如何从
u'\xd0\xbf' to u'\u043f'