我收集了 90 年代中期创建的 .html 文件,其中包括大量韩文文本。HTML 缺少字符集元数据,因此当然所有韩文文本现在都无法正确呈现。以下示例都将使用相同的文本摘录。
在 Coda 和 Text Wrangler 等文本编辑器中,文本显示为
╙╦ ╝№бя└К ▓щ╥НВь╕цль▒Ф ▓щ╥НВь╕цль▒Ф
在 <head> 中没有字符集元数据的情况下,浏览器将其呈现为:
ÓË ¼ü¡ïÀŠ ²éÒ,ì¸æ«ì±” ²éÒ,ì¸æ«ì±”</p>
将 euc-kr 元数据添加到 <head>
<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">
产生以下内容,这是难以辨认的废话(由母语人士验证):
沓 숩∽핅 꿴�귥멩レ콛 꿴�귥멩レ콛
我已经对所有具有历史意义的韩语字符集尝试了这种方法,每个都产生了同样不成功的结果。我还尝试通过 Beautiful Soup 解析和升级到 UTF-8,但也失败了。
在 Emacs 中查看文件似乎很有希望,因为它显示了较低级别的文本编码。以下是相同的文本示例:
\323\313\274\374\241\357\300\212\262\351\322\215\202\354\270\346\253\354\261\224\262\3\ 51\322\215 \202\354\270\346\253\354\261\224
如何识别此文本编码并将其提升为 UTF-8?