linux - linux libiconv 从 ISO8859 或 IBM850 转码为 UTF8 错误

Question

不知道原码是什么，所以假设原码是IBM850或者ISO8859-1。下面我的流程

但是有一个问题，如果原码是ISO8859-1，会被IBM850识别。如果原始代码是 IBM850，它将被识别为 ISO8859-1。

IBM850 和 ISO8859-1 之间似乎有共同点。

谁能帮帮我，谢谢。

score 0 · Accepted Answer

是的，通过测试转换是失败还是成功，只有最简单的自动检测是可能的。它不适用于（几乎）任何输入都有效的输入编码。

您应该对可能的输出有更多的了解，以测试从翻译IBM850或从翻译后是否更有意义ISO8859-1。这就是enca做libenca什么。您可能可以从一些简单的期望开始检查：

您的源是否恰好在ASCII两种编码的子集中？然后你对任何转换都很满意（但你根本无法知道原始编码）。
您的代码是否使用方框图字符？如果没有，很容易拒绝一些候选人IBM850。
您的代码是否使用来自的控制字符ISO8859-1？如果没有，很容易拒绝一些候选ISO8859-1代码点0x80-0x9F是否使用。
非 ASCII 代码片段是否总是以自然语言表示文本？然后，您可以对字符及其对使用频率表，选择源编码，使结果更接近您在这些标准上的自然语言。（如果两种变体几乎同样可以接受，最好给出错误消息并将最终决定留给人类）。

1 回答 1