1

我有大量嵌套目录,其中包含 PHP、HTML 和 Javascript 文件,这些文件都应该编码为 UTF-8。但是,有人编辑了几个文件并使用 ISO-8859-1 编码保存了它们。不幸的是,它们都与 UTF-8 文件混在一起。

我想使用该iconv工具将错误编码的文件转换为 UTF-8(如此所述)。主要是,有效的 ISO-8859-1 但无效的 UTF-8 字符会出现问题。

我认为一个合适的起点是找到所有包含无效 UTF-8 的文件。有什么好方法可以做到这一点?

我意识到这不会捕获所有可能显示错误字符的情况。关于如何解决这个烂摊子的任何进一步提示?

4

1 回答 1

2

这将是一个黑客攻击,但由于它是一次性发生的,所以它可能是值得的。如果 iconv 无法使用您提供的编码读取文件,它将抱怨无效编码。因此,您可以编写一个包装脚本来遍历所有文件,尝试将它们从 UTF-8 转换为其他文件,而那些无法转换的文件具有无效的 UTF-8。

于 2012-10-04T19:34:26.757 回答