0

我有一个读取为 UTF8 的字符串(不是来自文件,无法检查 BOM)。问题是有时原始文本是用另一种编码形成的,但被转换为 UTF8 - 所以字符串不可读,有点乱码。

是否可以检测到该字符串不是实际的 UTF8?
谢谢!

4

1 回答 1

1

不,它们只是字节。如果需要,您可以尝试通过尝试不同的转换并查看是否存在有效的字典单词等来猜测,但从理论上讲,如果不了解数据本身,即知道它从不使用某些字符,这是不可能的,或者总是使用某些字符,或者它主要包含在给定字典中找到的单词,等等。这对人来说可能看起来像胡言乱语,但计算机无法量化“胡言乱语”。

于 2013-08-08T16:03:25.010 回答