php - PHP 中的编码转换（ISO-8859-1、UTF-8、CP1250）

Question

我想使用 CSV 文件中的数据，但我意识到字母显示不正确。我尝试了数百万种方法来转换编码，但没有任何效果。在 MacOS、PHP 7.4.4 上工作。

在执行fgets()或fgetcsv()处理变量之后，我会得到这个（例如 2 行/行）。

Kód ADM;Kód obce;Název obce;Kód MOMC;Název MOMC;Kód MOP;Název MOP;Kód èásti obce;Název èásti obce;Kód ulice;Název ulice;Typ SO;Èíslo domovní;Èíslo orientaèní;Znak èísla orientaèního;PSÈ;Souøadnice Y;Souøadnice X;Platí Od

1234;1234;HorniDolni;;;;;1234;HorniDolni;;;è.p.;2;;;748790401;4799.98;15893971.21;2013-12-01T00:00:00

它或多或少是正确的捷克语，但字母č被取代è和ř被取代ø，它们都不是捷克字母的一部分。我有信心，文件中会出现更多错位的字母。

执行file -I path/to/file我收到file: text/plain; charset=iso-8859-1这很可悲，因为就wiki而言，这个字符集不包含捷克字母。

以下命令都没有转换错位的字母： mb_convert_encoding($line, 'UTF-8', 'ISO8859-1') iconv('ISO-8859-1', 'UTF-8', $line) iconv('ISO8859-1', 'UTF-8', $line)

我注意到在ISO-8859-1中这ø封信有一个代码00F8。Windows-1250（包括捷克语 aplhabet）具有正确的字母ř和代码0159 ，但它们都以00F8. 与 letter 相同，č并且è都以 code开头00E7。我不太了解编码，但似乎文件是在 Windows-1250 中编码的，但解释器认为编码是 ISO-8859-1 并采用原位的字母/代码。

但是这两种转换（ISO-8859-1 => Windows-1250、ISO-8859-1 => UTF-8 或其他方式）都不起作用。

有谁知道如何解决这个问题？谢谢！

score 5 · Accepted Answer

8 位字符编码的问题在于，它主要需要人类智能来解释正确的代码页。

当您file在一个文件上运行时，它可以确定该文件主要由可打印字符组成，但由于它只查看字节，它不能轻易区分 iso-8895-1 和 iso-8895-2 之间的区别. ，file与0x80相同0x80。

file由于使用了0x80-0xFF. 即不仅仅是ASCII。

（Unicode 编码，如 UTF-8 和 UTF-16 更容易通过它们的字节序列或文件顶部设置的字节顺序标记来检测）

有一些智能字符代码页检测器，在不同语言的字典的帮助下，可以根据字符/字节序列估计代码页。

您需要的可能转换很简单iso-8895-2 -> UTF-8。

对您来说重要的是您知道原始编码（解释），然后当您验证它时，您确切地知道您正在查看它的编码。

例如，默认情况下 PHP 会将 HTTP 字符集设置为iso-8895-1. 这意味着您很有可能正确转换为iso-8895-2.，但您的浏览器随后将“解释”为iso-8895-1.

验证的最佳方法是将文件保存到磁盘，然后在打开文件之前使用文本编辑器（如 VS Code ）预先设置为所需的编码。

如果您需要进一步的帮助，您将需要编辑您的问题以包含您正在使用的确切代码。

php - PHP 中的编码转换（ISO-8859-1、UTF-8、CP1250）

1 回答 1

Related

Reference