0

如何生成包含特定语言环境中所有字符代码的文本文件,例如 1029 捷克语。我基本上想生成他们字母表中存在的每个字符的列表?

4

3 回答 3

2

我会用 python + beautiful soup 编写一个脚本,从以下位置获取所有这些:

http://en.wikipedia.org/wiki/List_of_Unicode_characters

于 2009-09-25T07:36:11.993 回答
1

如果这是 Windows 语言环境,只需生成一个所有字节都从 32 到 255 的文件: 语言环境的字节码是相同的;他们只是以不同的方式解释每个字节。请参阅此页面以获取链接。

示例:字节 0xa5 在捷克代码页 (1250) 中代表“Ą”,而在德语代码页 (1252 aka ISO-Latin-1) 中代表“¥”。

[编辑] 请注意,这仅适用于一个字节映射到一个字符的 pre-Unicode 语言环境。它不适用于每个字符需要两个或更多字节的任何亚洲语言环境。

于 2009-09-25T07:49:37.903 回答
0

CLDR(Common Locale Data Repository,http://cldr.unicode.org/)包含该信息。

但是,如果您使用 Unicode 处理所有事情,那么真的没有很好的理由去关心。欧盟现在的成员国在几个“传统”代码页中使用字符:西欧、东欧、土耳其语、波罗的海、希腊语、西里尔语。Unicode 是唯一的方法。

于 2009-09-25T20:53:44.240 回答