不要使用eval()
;而是使用unicode_escape
编解码器来解释该数据:
for line in f:
line = line.decode('unicode_escape')
unicode_escape
编码解释\uabcd
字符序列的方式与 Python 在源代码中解析 unicode 文字时的方式相同:
>>> '\u05d9\u05d5\u05dd'.decode('unicode_escape')
u'\u05d9\u05d5\u05dd'
您看到的异常不是由eval()
语句引起的;我怀疑它是由尝试打印结果引起的。Python 将尝试unicode
自动对值进行编码,并检测当前终端使用的编码。
您的 Eclipse 输出窗口使用与终端不同的编码;如果后者配置为支持 Latin-1,那么您将看到确切的异常,因为 Python 尝试将希伯来语代码点编码为不支持这些的编码:
>>> u'\u05d9\u05d5\u05dd'.encode('latin1')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'latin-1' codec can't encode characters in position 0-2: ordinal not in range(256)
解决方案是重新配置您的终端(UTF-8 将是一个不错的选择),或者不打印unicode
具有无法编码为 Latin-1 的代码点的值。
如果要将 Python 的输出重定向到文件,则 Python 无法自动确定输出编码。在这种情况下,您可以使用PYTHONIOENCODING
环境变量来告诉 Python 标准 I/O 使用什么编码:
PYTHONIOENCODING=utf-8 python yourscript.py > outputfile.txt