0

我正在使用 Python 查找包含外文的二元组列表:阿拉伯语、俄语、波斯语

结果显示如下: ('\xd9\x85\xd9\x86\xd8\xa7\xd8\xb8\xd8\xb1\xd9\x87', '\xd9\x85\xd9\x88\xd8\xb3\xd9\ x88\xdb\x8c')

这个脚本叫什么,我怎样才能把它转换成它的阿拉伯语/俄语/波斯语对应物。

我正在使用 NLTK 在 MAC OS 的终端上运行它。

4

1 回答 1

2

这是一个包含 utf-8 编码文本的字节串:

In [5]: '\xd9\x85\xd9\x86\xd8\xa7\xd8\xb8\xd8\xb1\xd9\x87'.decode('utf-8')
Out[5]: u'\u0645\u0646\u0627\u0638\u0631\u0647'

In [6]: print '\xd9\x85\xd9\x86\xd8\xa7\xd8\xb8\xd8\xb1\xd9\x87'.decode('utf-8')         
مناظره
于 2013-03-05T17:13:20.243 回答