0

最近我们的软件出现了一个问题,即某些晦涩的汉字(汉字)无法被我们的 Shift-JIS 编码识别。我制作了一个算法来读取任何 Shift-JIS 字符串,以尝试找到任何“越界”汉字并将字符串切换为 UTF-8(它有更多字符,但使用更多空间)。

为了找到不包含的汉字,我需要掌握ibm-943_P14A-2000 编码的字符映射表。

去哪里寻找这些字符集的映射?通过网络搜索很容易找到 UTF8 查找等,但我根本找不到哪些值对应于该编码中的哪些值的图表/表格/文件。

如果您能指出我的任何方向,无论多么晦涩难懂,我将不胜感激。

4

1 回答 1

2

ICU 项目有一组相当大的字符集映射表,包括ibm-943_P14A-1999. '1999' 和 '2000' 之间的区别在此线程中进行了解释——您可以查看旧表的 ICU 源代码的旧版本。表格的格式在 ICU 用户指南中进行了描述。

至于原始字符映射(IBM-943 的字符集),在此处记录

于 2015-08-13T01:19:57.723 回答