character-encoding - 试图找出字符集

Question

我正在从 Google Docs 下载 CSV，其中的字符“保存为 \xE2\x80\x9C 和”保存为 \xE2\x80\x9D。

我的问题是......那些被保存的字符集是什么？我该如何解决这个问题？

score 1 · Accepted Answer

它采用 UTF-8 格式。您可以通过将其解码为 UTF-8 来判断它并显示正确的字符。

UTF-8 也有一个独特且非常独特的模式，仅 3 个字节的最高位设置形成一个有效的 UTF-8 序列就足以以 99% 的置信度判断某事物是否为 UTF-8。即使设置了最高位的 2 个字节形成了有效的 UTF-8 序列，您已经可以达到 90%。

在某种情况下，它不是 UTF-8，而是一些 8 位代码页，仅通过查看字节是不可能分辨的。如果没有任何其他信息，您基本上必须通过各种 8 位编码对其进行解码，然后查看它是否正确。另一种可能性是使用一种算法，该算法将自动通过编码，并查看其结果是否在任何语言中都有意义。

有了更多信息，例如文件保存在哪个操作系统和语言环境中，您可以大量减少可能要尝试的编码数量。

1 回答 1