python - Python检测损坏的编码

Question

在爬取了许多网站后，在其中一些网站中，我收到了损坏的编码数据。我对它们无能为力，我只需要检测它们。例如像这样的文本：

·ç¼wÃdª«¦Ê³f

或者

ãà³n³¾å¢

我怎样才能识别这样的文字？我是任何语言，所以搜索非英语文本不是一种选择。我能想到的唯一选择是猜测语言模块。

score 2 · Accepted Answer

NLTK有一个guess_encoding函数，它接受一个字节字符串并尝试所有可用的编码，这是否符合您的目的？

score 1 · Accepted Answer

如果我理解正确，它将尝试“修复”错误编码/解码的文本。

2 回答 2