我无法掌握 Python 如何处理文件中的 Unicode ......
f = open('test.txt', 'w')
f.write('abc')
f.close()
这给出了一个 3 个字节的文件。
f = open('test.txt', 'w')
f.write('abcé')
f.close()
这给出了一个 5 个字节的文件(é 占用两个字节,但 Python 怎么知道它必须在那里读取 2 个字节?)
f = open('test.txt', 'w')
f.write('abcそ') # a Japanese character
f.close()
这给出了一个 6 字节的文件(そ 占用了 3 个字节,但是 Python 怎么知道它必须在那里读取 3 个字节?)
所以我可以理解 Unicode 需要两个字节,但有时是 1、2 或 3 个字节,我看不出它是如何工作的。