我有一个以 UTF-8 编码的非常大的文本文件(~150 MB)。文本内容包含 UTF-8 可读字符和实体编号。
当通过文本编辑器(TextWrangler、NotePad++...)显示时,文本内容如下:
zygoma <B><FONT SIZE='+1'>zygoma</FONT></B>/zʌɪ/ (gəʊmə)</FONT>
当 Web 浏览器读取此文本文件时,内容正确显示为:
- 颧骨zygoma /zʌɪ/ (gəʊmə)
我希望将所有 UTF-8 数字(如gəʊmə
)转换为可读字符(如gəʊmə),以便在由文本编辑器打开时,文本文件将如下所示:
zygoma <B><FONT SIZE='+1'>zygoma</FONT></B>/zʌɪ/ (gəʊmə)</FONT>
我曾尝试使用 TextWrangler 和 Notepad++ 提供的编码工具......但没有运气。(有一些在线工具可以完成这项任务,但我的文本文件对他们来说太大了)。
我想知道是否有工具或方法可以将这些 UTF-8 数字转换为等效的可读字符。
你能帮忙吗?谢谢你。