encoding - 获取任何晦涩字符集/编码的字符映射（例如 ibm-943_P14A-2000）

Question

最近我们的软件出现了一个问题，即某些晦涩的汉字（汉字）无法被我们的 Shift-JIS 编码识别。我制作了一个算法来读取任何 Shift-JIS 字符串，以尝试找到任何“越界”汉字并将字符串切换为 UTF-8（它有更多字符，但使用更多空间）。

为了找到不包含的汉字，我需要掌握ibm-943_P14A-2000 编码的字符映射表。

去哪里寻找这些字符集的映射？通过网络搜索很容易找到 UTF8 查找等，但我根本找不到哪些值对应于该编码中的哪些值的图表/表格/文件。

如果您能指出我的任何方向，无论多么晦涩难懂，我将不胜感激。

score 2 · Accepted Answer

ICU 项目有一组相当大的字符集映射表，包括ibm-943_P14A-1999. '1999' 和 '2000' 之间的区别在此线程中进行了解释——您可以查看旧表的 ICU 源代码的旧版本。表格的格式在 ICU 用户指南中进行了描述。

至于原始字符映射（IBM-943 的字符集），在此处记录。

1 回答 1