我正在从 Google Docs 下载 CSV,其中的字符“保存为 \xE2\x80\x9C 和”保存为 \xE2\x80\x9D。
我的问题是......那些被保存的字符集是什么?我该如何解决这个问题?
我正在从 Google Docs 下载 CSV,其中的字符“保存为 \xE2\x80\x9C 和”保存为 \xE2\x80\x9D。
我的问题是......那些被保存的字符集是什么?我该如何解决这个问题?
它采用 UTF-8 格式。您可以通过将其解码为 UTF-8 来判断它并显示正确的字符。
UTF-8 也有一个独特且非常独特的模式,仅 3 个字节的最高位设置形成一个有效的 UTF-8 序列就足以以 99% 的置信度判断某事物是否为 UTF-8。即使设置了最高位的 2 个字节形成了有效的 UTF-8 序列,您已经可以达到 90%。
在某种情况下,它不是 UTF-8,而是一些 8 位代码页,仅通过查看字节是不可能分辨的。如果没有任何其他信息,您基本上必须通过各种 8 位编码对其进行解码,然后查看它是否正确。另一种可能性是使用一种算法,该算法将自动通过编码,并查看其结果是否在任何语言中都有意义。
有了更多信息,例如文件保存在哪个操作系统和语言环境中,您可以大量减少可能要尝试的编码数量。