text - 如何将 UTF-8 数字转换为字符

Question

我有一个以 UTF-8 编码的非常大的文本文件（~150 MB）。文本内容包含 UTF-8 可读字符和实体编号。

当通过文本编辑器（TextWrangler、NotePad++...）显示时，文本内容如下：

zygoma  <B><FONT SIZE='+1'>zygoma</FONT></B>/z&#652;&#618;/ (g&#601;&#650;m&#601;)</FONT>

当 Web 浏览器读取此文本文件时，内容正确显示为：

我希望将所有 UTF-8 数字（如gəʊmə）转换为可读字符（如gəʊmə），以便在由文本编辑器打开时，文本文件将如下所示：

zygoma  <B><FONT SIZE='+1'>zygoma</FONT></B>/zʌɪ/ (gəʊmə)</FONT>

我曾尝试使用 TextWrangler 和 Notepad++ 提供的编码工具......但没有运气。（有一些在线工具可以完成这项任务，但我的文本文件对他们来说太大了）。

我想知道是否有工具或方法可以将这些 UTF-8 数字转换为等效的可读字符。

你能帮忙吗？谢谢你。

score 2 · Accepted Answer

EditPad Pro可以做到这一点：

屏幕截图预转换

使用Convert- and  -> Character命令（并假设当前文件设置为 UTF-8 并且您使用的字体包含所需的字形），您会得到

转换后截图

当你保存它时，你会得到一个正确的 UTF-8 编码文件，有或没有 BOM，你可以选择。

_{免责声明：我是 EPP 德文版的翻译（但我是免费的，因为这个编辑器很棒）。}

score 1 · Accepted Answer

你可以试试这个http://www.artlebedev.ru/tools/decoder/工具（俄罗斯语言）。

翻译版本：http ://bit.ly/15O0eQW（英文）

更新：

试试这个脚本https://gist.github.com/Funfun/6839052

2 回答 2