internationalization - 非英语语言的特殊字符

Question

如何生成包含特定语言环境中所有字符代码的文本文件，例如 1029 捷克语。我基本上想生成他们字母表中存在的每个字符的列表？

score 2 · Accepted Answer

我会用 python + beautiful soup 编写一个脚本，从以下位置获取所有这些：

score 1 · Accepted Answer

如果这是 Windows 语言环境，只需生成一个所有字节都从 32 到 255 的文件：语言环境的字节码是相同的；他们只是以不同的方式解释每个字节。请参阅此页面以获取链接。

示例：字节 0xa5 在捷克代码页 (1250) 中代表“Ą”，而在德语代码页 (1252 aka ISO-Latin-1) 中代表“¥”。

[编辑] 请注意，这仅适用于一个字节映射到一个字符的 pre-Unicode 语言环境。它不适用于每个字符需要两个或更多字节的任何亚洲语言环境。

score 0 · Accepted Answer

CLDR（Common Locale Data Repository，http://cldr.unicode.org/）包含该信息。

但是，如果您使用 Unicode 处理所有事情，那么真的没有很好的理由去关心。欧盟现在的成员国在几个“传统”代码页中使用字符：西欧、东欧、土耳其语、波罗的海、希腊语、西里尔语。Unicode 是唯一的方法。

3 回答 3