处理内存中 unicode 字符串的首选格式是什么?为什么?
我正在通过为其生成可执行文件映像来实现编程语言。显然,一个工作的编程语言实现需要一个处理字符串的协议。
我考虑过使用动态数组作为字符串的基础,因为它们实现起来非常简单,并且对于短字符串非常有效。当以这种方式使用字符串时,我只是不知道字符的最佳可能格式。
处理内存中 unicode 字符串的首选格式是什么?为什么?
我正在通过为其生成可执行文件映像来实现编程语言。显然,一个工作的编程语言实现需要一个处理字符串的协议。
我考虑过使用动态数组作为字符串的基础,因为它们实现起来非常简单,并且对于短字符串非常有效。当以这种方式使用字符串时,我只是不知道字符的最佳可能格式。
C Python 2.x 系列根据平台/构建/等使用 UTF-16 和 UCS-4。
这是python-dev 关于选择 Python 3.0 的 Unicode 内部表示的要求和权衡的有趣讨论。虽然那里的内容比我可以简要描述的要多,但它包括: