我有一堆声明为 encoding="IBM1047" 的 XML 文件,但它们似乎不是:
- 当使用 iconv 从 IBM1047 转换为 UTF-8 或 ISO8859-1 (Latin 1) 时,它们会导致无法辨认的垃圾
- file -i <name_of_file> 说“未知的 8 位编码”
- 当由 XML 解析器解析时,解析器会抱怨序言之前有文本但没有;如果我将 XML 声明中的编码更改为其他内容,则不会发生此错误
找出这些文件的真实编码会很好(我试过上面提到的'file -i'和'enca',但它仅限于斯拉夫语言(文件是法语))。
我几乎无法控制这些文件的生成方式。如果找不到实际的编码,如果我能最终证明这些文件实际上不是 IBM1047,我可能会让生产者对此做点什么。
我该如何证明?
一些特殊字符:
- 'é' 是 '©'
- 'à' 是 'ë'
- 'è' 是 'Û'
- 'ê' 是 'ª'