我们有一个 CMS,其中包含数千个文本/html 文件。事实证明,用户一直在使用各种字符编码(utf-8、utf-8 w BOM、windows 1252、iso-8859-1)上传文本/html 文件。
当这些文件被读入并写入响应时,我们的 CMS 框架会在响应的 content-type 属性上强制使用 charset=UTF-8。
因此,任何非 UTF-8 内容都会显示给用户,并带有损坏的字符(?、黑色菱形等,当没有从“本机”字符编码到 UTF-8 的正确字符转换时)。此外,这些文档没有附加元数据指示字符集 - 据我所知,判断它们是什么字符集的唯一方法是在文本呈现应用程序(Firefox、Notepadd++ 等)中查看它们并“查看" 在内容上看它是否“看起来”正确。
有谁知道如何自动/智能地将未知编码的文件转换为 UTF-8?我读过这可以通过统计建模来完成,但这就是我头顶上的事情。
关于如何最好地解决问题的想法?
谢谢