2

我想使用 CSV 文件中的数据,但我意识到字母显示不正确。我尝试了数百万种方法来转换编码,但没有任何效果。在 MacOS、PHP 7.4.4 上工作。

在执行fgets()fgetcsv()处理变量之后,我会得到这个(例如 2 行/行)。

Kód ADM;Kód obce;Název obce;Kód MOMC;Název MOMC;Kód MOP;Název MOP;Kód èásti obce;Název èásti obce;Kód ulice;Název ulice;Typ SO;Èíslo domovní;Èíslo orientaèní;Znak èísla orientaèního;PSÈ;Souøadnice Y;Souøadnice X;Platí Od

1234;1234;HorniDolni;;;;;1234;HorniDolni;;;è.p.;2;;;748790401;4799.98;15893971.21;2013-12-01T00:00:00

它或多或少是正确的捷克语,但字母č被取代èř被取代ø,它们都不是捷克字母的一部分。我有信心,文件中会出现更多错位的字母。

执行file -I path/to/file我收到file: text/plain; charset=iso-8859-1这很可悲,因为就wiki而言,这个字符集不包含捷克字母。

以下命令都没有转换错位的字母: mb_convert_encoding($line, 'UTF-8', 'ISO8859-1') iconv('ISO-8859-1', 'UTF-8', $line) iconv('ISO8859-1', 'UTF-8', $line)

我注意到在ISO-8859-1中这ø封信有一个代码00F8Windows-1250(包括捷克语 aplhabet)具有正确的字母ř和代码0159 ,但它们都以00F8. 与 letter 相同,č并且è都以 code开头00E7。我不太了解编码,但似乎文件是在 Windows-1250 中编码的,但解释器认为编码是 ISO-8859-1 并采用原位的字母/代码。

但是这两种转换(ISO-8859-1 => Windows-1250、ISO-8859-1 => UTF-8 或其他方式)都不起作用。

有谁知道如何解决这个问题?谢谢!

4

1 回答 1

5

8 位字符编码的问题在于,它主要需要人类智能来解释正确的代码页。

当您file在一个文件上运行时,它可以确定该文件主要由可打印字符组成,但由于它只查看字节,它不能轻易区分 iso-8895-1 和 iso-8895-2 之间的区别. ,file0x80相同0x80

file由于使用了0x80-0xFF. 即不仅仅是ASCII。

(Unicode 编码,如 UTF-8 和 UTF-16 更容易通过它们的字节序列或文件顶部设置的字节顺序标记来检测)

有一些智能字符代码页检测器,在不同语言的字典的帮助下,可以根据字符/字节序列估计代码页。

您需要的可能转换很简单iso-8895-2 -> UTF-8

对您来说重要的是您知道原始编码(解释),然后当您验证它时,您确切地知道您正在查看它的编码。

例如,默认情况下 PHP 会将 HTTP 字符集设置为iso-8895-1. 这意味着您很有可能正确转换为iso-8895-2.,但您的浏览器随后将“解释”为iso-8895-1.

验证的最佳方法是将文件保存到磁盘,然后在打开文件之前使用文本编辑器(如 VS Code )预先设置为所需的编码

如果您需要进一步的帮助,您将需要编辑您的问题以包含您正在使用的确切代码。

于 2020-04-20T15:40:35.237 回答