6

我收集了 90 年代中期创建的 .html 文件,其中包括大量韩文文本。HTML 缺少字符集元数据,因此当然所有韩文文本现在都无法正确呈现。以下示例都将使用相同的文本摘录。

在 Coda 和 Text Wrangler 等文本编辑器中,文本显示为

╙╦ ╝№бя└К ▓щ╥НВь╕цль▒Ф ▓щ╥НВь╕цль▒Ф

在 <head> 中没有字符集元数据的情况下,浏览器将其呈现为:

ÓË ¼ü¡ïÀŠ ²éÒ,ì¸æ«ì±” ²éÒ,ì¸æ«ì±”</p>


将 euc-kr 元数据添加到 <head>

<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">

产生以下内容,这是难以辨认的废话(由母语人士验证):

沓 숩∽핅 꿴�귥멩レ콛 꿴�귥멩レ콛


我已经对所有具有历史意义的韩语字符集尝试了这种方法,每个都产生了同样不成功的结果。我还尝试通过 Beautiful Soup 解析和升级到 UTF-8,但也失败了。

在 Emacs 中查看文件似乎很有希望,因为它显示了较低级别的文本编码。以下是相同的文本示例:

\323\313\274\374\241\357\300\212\262\351\322\215\202\354\270\346\253\354\261\224\262\3\ 51\322\215 \202\354\270\346\253\354\261\224


如何识别此文本编码并将其提升为 UTF-8?

4

3 回答 3

6

emacs 显示的所有八进制代码都小于 254(或八进制中的 \376),因此它看起来像是那些旧的 pre-Unicode 字体之一,它只是在 ASCII 范围内使用了它自己的映射。如果这是正确的,您只需要尝试找出它的用途,找到它并自己进行转换。

这是一种痛苦。许多年前,我为一些流行的 pre-Unicode 希腊字体做了类似的事情:http: //litot.es/unicode-converter/(代码:https ://github.com/seanredmond/Encoding-Converter )

于 2012-06-17T17:36:57.087 回答
0

最后,它是关于找到正确的字符编码和使用 iconv。

iconv --list

显示所有可用的编码。搜索“KR”显示至少我的系统可以执行 CSEUCKR、CSIISO2022KR、EUC-KR、ISO-2022-KR 和 ISO646-KR。根据维基百科,韩语也是 BIG5HKSCS、CSKSC5636 和 KSC5636。尝试所有这些,直到出现一些合理的东西。

于 2012-06-17T17:52:00.900 回答
0

即使这个线程很旧,它仍然是一个问题,并且没有找到批量转换文件的方法(除了使用韩语版本的 Windows7),现在我正在使用 Naver,它有一个像谷歌文档这样的云服务如果你在那里上传那些奇怪的编码文件,它会很好地处理它们。我只是编辑和复制文本,当我将它复制到其他地方时,它又恢复了标准。不是我喜欢的那种解决方案,但它可能会节省一些路人。您可以使用 ID 注册云帐户,即使您不居住在韩国,也可以通过一些最低限度的英语。

于 2020-05-31T17:42:56.083 回答