0

我有一些有效的 UTF-8 数据。然而,它的一部分,虽然仍然是有效的 UTF-8,但显然不是最初的 UTF-8。它们也不是 UTF-8 编码的 Latin-1。

我怎样才能弄清楚这些部分的原始字符集是什么,以便我可以恢复有用的信息?还是我应该简单地将它们视为已损坏而丢弃?

4

1 回答 1

1

那里有 mojibake 转换器。一种开源选项是https://github.com/dekellum/mojibake

gem install mojibake
require 'mojibake'
mapper = MojiBake::Mapper.new
mapper.recover( '“quotedâ€�' ) #=> '“quoted”'
于 2017-06-02T18:24:50.400 回答